Lemma Approver

This code approves lemma based on morphology, etc.


In [1]:
from generator import *


Currently there are  2167  out of  4101
Currently there are  2199  out of  4101

In [2]:
tokens_remaining = to_check() # gets list of tokens to check

def update_tokens_remaining():
    global tokens_remaining
    tokens_remaining = to_check()
    
def ends_with(s):
    out = []
    for t in tokens_remaining:
        i = 0-len(s)
        if t[i:]==s:
            out.append(t)
    return out

def print_ends_with(s):
    tokens =ends_with(s)
    print ', '.join(ends_with(s))

def token_search(s):
    return [t for t in tokens_remaining if re.search(s,t)]

def mark_okay_lemmas(are_okay):

    assert type(are_okay)==list
    for t in are_okay:
        okay_lemmas[t] = lemmas[t]

In [13]:
print_ends_with('uu')


;xuu, aa;nsuu, aab-juu, aab-ruu, aabruu, aahuu, aarzuu, abruu, baazuu, bad-;xuu, be-aabruu, buu, dast-o-baazuu, diivaar-juu, fitnah-;xuu, guftaguu, guftguu, guluu, jaam-o-subuu, just-juu, justajuu, kisuu, lahuu, lakhna))uu, mushk-buu, muu, numuu, pahluu, pai;gaarah-juu, qad-o-gesuu, rafuu, ruu, ruubaruu, shiishah-o-qada;h-o-kuuzah-o-sabuu, sust-ruu, suu, tund-;xuu, tuu, zaanuu

In [14]:
mark_okay_lemmas(ends_with('uu'))

In [15]:
update_files()

In [16]:
print_stats()


Currently there are  274  out of  4101

In [26]:
ends_with(":t")


Out[26]:
[';gala:t',
 ';xa:t',
 'bisaa:t',
 'faqa:t',
 'i;htiyaa:t',
 'i;xtilaa:t',
 'nashaa:t',
 'qa:t',
 'rab:t',
 'tamkiin-o-.zab:t',
 'ulfa:t']

In [25]:
mark_okay_lemmas(ends_with(':t'))
update_files()
print_stats()


Currently there are  285  out of  4101

In [33]:
token_search("(\.s|\.z|\:t|:z)$")


Out[33]:
[';gala:t',
 ';gara.z',
 ';xa:t',
 ';xaa.s',
 'bisaa:t',
 'fai.z',
 'faqa:t',
 'far.z',
 'i;htiyaa:t',
 'i;xlaa.s',
 'i;xtilaa:t',
 'kaa;ga.z',
 'laf:z',
 'mara.z',
 'nashaa:t',
 'qa:t',
 'qar.z',
 'rab:t',
 'sha;x.s',
 'tamkiin-o-.zab:t',
 'ulfa:t',
 'vaa((i:z']

In [36]:
mark_okay_lemmas(token_search("(\.s|\.z|\:t|:z)$"))
print_stats()
update_files()


Currently there are  296  out of  4101

In [41]:
mark_okay_lemmas(token_search("(\.s|\.z|:t|:z)-e$"))

In [19]:
ends_with("'haa-e")


Out[19]:
[":turrah'haa-e",
 ";halqah'haa-e",
 ";xandah'haa-e",
 "andeshah'haa-e",
 "chashmak'haa-e",
 "dil'haa-e",
 "ganj'haa-e",
 "gul'haa-e",
 "jalvah'haa-e",
 "kaavish'haa-e",
 "kashaakash'haa-e",
 "la;z;zat'haa-e",
 "mizhah'haa-e",
 "na:zar'haa-e",
 "na;gmah'haa-e",
 "naalah'haa-e",
 "navaazish'haa-e",
 "nus;xah'haa-e",
 "paarah'haa-e",
 "pursish'haa-e",
 "raaz'haa-e",
 "shab'haa-e",
 "shikaayat'haa-e",
 "ulfa:t'haa-e"]

In [23]:
to_add = []
for t in ends_with("'haa-e"):
    singular=t[0:-6]
    lemmas[t] = [singular]
    to_add.append(t)
    
    if singular in tokens_remaining:
        lemmas[singular] = [singular]
        to_add.append(singular)
        
    if singular+'-e' in tokens_remaining:
        lemmas[singular+'-e'] = [singular]
        to_add.append(singular+'-e')
for t in to_add: print t,lemmas[t]


:turrah'haa-e [':turrah']
;halqah'haa-e [';halqah']
;halqah [';halqah']
;halqah-e [';halqah']
;xandah'haa-e [';xandah']
;xandah [';xandah']
;xandah-e [';xandah']
andeshah'haa-e ['andeshah']
andeshah ['andeshah']
chashmak'haa-e ['chashmak']
dil'haa-e ['dil']
dil ['dil']
dil-e ['dil']
ganj'haa-e ['ganj']
gul'haa-e ['gul']
gul ['gul']
gul-e ['gul']
jalvah'haa-e ['jalvah']
jalvah ['jalvah']
jalvah-e ['jalvah']
kaavish'haa-e ['kaavish']
kaavish ['kaavish']
kaavish-e ['kaavish']
kashaakash'haa-e ['kashaakash']
kashaakash ['kashaakash']
kashaakash-e ['kashaakash']
la;z;zat'haa-e ['la;z;zat']
la;z;zat ['la;z;zat']
la;z;zat-e ['la;z;zat']
mizhah'haa-e ['mizhah']
mizhah ['mizhah']
mizhah-e ['mizhah']
na:zar'haa-e ['na:zar']
na:zar ['na:zar']
na;gmah'haa-e ['na;gmah']
na;gmah ['na;gmah']
na;gmah-e ['na;gmah']
naalah'haa-e ['naalah']
naalah ['naalah']
naalah-e ['naalah']
navaazish'haa-e ['navaazish']
navaazish ['navaazish']
nus;xah'haa-e ['nus;xah']
nus;xah-e ['nus;xah']
paarah'haa-e ['paarah']
paarah-e ['paarah']
pursish'haa-e ['pursish']
pursish ['pursish']
pursish-e ['pursish']
raaz'haa-e ['raaz']
raaz ['raaz']
raaz-e ['raaz']
shab'haa-e ['shab']
shab ['shab']
shab-e ['shab']
shikaayat'haa-e ['shikaayat']
shikaayat ['shikaayat']
shikaayat-e ['shikaayat']
ulfa:t'haa-e ['ulfa:t']

In [24]:
mark_okay_lemmas(to_add)

In [28]:
print_stats()
update_files()
update_tokens_remaining()


Currently there are  355  out of  4101

In [40]:
ii_e = ends_with('ii-e')
ii_e


Out[40]:
[':tuu:tii-e',
 ';xaanah-viiraa;n-saazii-e',
 ';xizaanii-e',
 ';xuubii-e',
 ';xvud-daarii-e',
 'aa))inah-daarii-e',
 'aashtii-e',
 'aazaadii-e',
 'aazurdagii-e',
 'afsurdagii-e',
 'arzaanii-e',
 'baa;g-baanii-e',
 'baadah-noshii-e',
 'bad-aamozii-e',
 'bad-gumaanii-e',
 'bad-mastii-e',
 'bandagii-e',
 'be-;xvudii-e',
 'be-kaarii-e',
 'be-mihrii-e',
 'be-rab:tii-e',
 'be-raunaqii-e',
 'begaanagii-e',
 'bekasii-e',
 'berab:tii-e',
 'biimaarii-e',
 'chaarah-saazii-e',
 'chaman-:taraazii-e',
 'chaman-o-;xuubii-e',
 'daraaz-dastii-e',
 'diivaanagii-e',
 'dil-farebii-e',
 'dushvaarii-e',
 'duurii-e',
 'faryaadii-e',
 'fasaanah-;xvaanii-e',
 'garmii-e',
 'giraa;n-baarii-e',
 'giraa;n-maayagii-e',
 'giriftaarii-e',
 'gul-afshaanii-e',
 'gustaa;xii-e',
 'ham-naamii-e',
 'hastii-e',
 'jaa;n-gudaazii-e',
 'jaa;n-kaahii-e',
 'jaavidaanii-e',
 'jalvah-rezii-e',
 'ka;srat-aaraa))ii-e',
 'kishtii-e',
 'korii-e',
 'kotaahii-e',
 'ma((zuulii-e',
 'ma;hramii-e',
 'ma;hruumii-e',
 'mu;gannii-e',
 'naa-kaamii-e',
 'naa-saazii-e',
 'naa-tamaamii-e',
 'naa-tavaanii-e',
 'naumiidii-e',
 'niko-naamii-e',
 'paa-bastagii-e',
 'par-fishaanii-e',
 'parastaarii-e',
 'pardah-daarii-e',
 'pareshaanii-e',
 'pusht-garmii-e',
 'ra((naa))ii-e',
 'ravaanii-e',
 'ravish-o-mastii-e',
 'rusvaa))ii-e',
 'sa((ii-e',
 'saaqii-e',
 'sho;xii-e',
 'siilii-e',
 'siyah-mastii-e',
 'taariikii-e',
 'tal;xii-e',
 'talaafii-e',
 'tamaashaa))ii-e',
 'tangii-e',
 'tiryaakii-e',
 'tishnagii-e',
 'tundii-e',
 'tunuk-:zarfii-e',
 'vaadii-e',
 'varaq-gardaanii-e',
 'zabaanii-e',
 'zabuunii-e',
 'zindaanii-e',
 'zindagaanii-e']

In [43]:
to_add = []
for x in ii_e:
    ii_e_root = x[:-2]
    lemmas[x] = [ii_e_root]
    to_add.append(x)
    if ii_e_root in tokens_remaining:
        lemmas[ii_e_root] = [ii_e_root]
        to_add.append(ii_e_root)
to_add,len(to_add)


Out[43]:
([':tuu:tii-e',
  ':tuu:tii',
  ';xaanah-viiraa;n-saazii-e',
  ';xizaanii-e',
  ';xuubii-e',
  ';xvud-daarii-e',
  'aa))inah-daarii-e',
  'aashtii-e',
  'aazaadii-e',
  'aazaadii',
  'aazurdagii-e',
  'afsurdagii-e',
  'afsurdagii',
  'arzaanii-e',
  'arzaanii',
  'baa;g-baanii-e',
  'baadah-noshii-e',
  'baadah-noshii',
  'bad-aamozii-e',
  'bad-gumaanii-e',
  'bad-gumaanii',
  'bad-mastii-e',
  'bandagii-e',
  'bandagii',
  'be-;xvudii-e',
  'be-;xvudii',
  'be-kaarii-e',
  'be-mihrii-e',
  'be-rab:tii-e',
  'be-raunaqii-e',
  'be-raunaqii',
  'begaanagii-e',
  'begaanagii',
  'bekasii-e',
  'bekasii',
  'berab:tii-e',
  'biimaarii-e',
  'chaarah-saazii-e',
  'chaman-:taraazii-e',
  'chaman-o-;xuubii-e',
  'daraaz-dastii-e',
  'diivaanagii-e',
  'diivaanagii',
  'dil-farebii-e',
  'dushvaarii-e',
  'duurii-e',
  'faryaadii-e',
  'faryaadii',
  'fasaanah-;xvaanii-e',
  'garmii-e',
  'garmii',
  'giraa;n-baarii-e',
  'giraa;n-maayagii-e',
  'giriftaarii-e',
  'giriftaarii',
  'gul-afshaanii-e',
  'gustaa;xii-e',
  'gustaa;xii',
  'ham-naamii-e',
  'hastii-e',
  'hastii',
  'jaa;n-gudaazii-e',
  'jaa;n-kaahii-e',
  'jaavidaanii-e',
  'jalvah-rezii-e',
  'ka;srat-aaraa))ii-e',
  'kishtii-e',
  'korii-e',
  'kotaahii-e',
  'ma((zuulii-e',
  'ma;hramii-e',
  'ma;hruumii-e',
  'mu;gannii-e',
  'naa-kaamii-e',
  'naa-kaamii',
  'naa-saazii-e',
  'naa-tamaamii-e',
  'naa-tamaamii',
  'naa-tavaanii-e',
  'naa-tavaanii',
  'naumiidii-e',
  'naumiidii',
  'niko-naamii-e',
  'paa-bastagii-e',
  'par-fishaanii-e',
  'par-fishaanii',
  'parastaarii-e',
  'pardah-daarii-e',
  'pardah-daarii',
  'pareshaanii-e',
  'pareshaanii',
  'pusht-garmii-e',
  'ra((naa))ii-e',
  'ravaanii-e',
  'ravaanii',
  'ravish-o-mastii-e',
  'rusvaa))ii-e',
  'rusvaa))ii',
  'sa((ii-e',
  'saaqii-e',
  'saaqii',
  'sho;xii-e',
  'sho;xii',
  'siilii-e',
  'siyah-mastii-e',
  'taariikii-e',
  'tal;xii-e',
  'talaafii-e',
  'talaafii',
  'tamaashaa))ii-e',
  'tamaashaa))ii',
  'tangii-e',
  'tiryaakii-e',
  'tishnagii-e',
  'tundii-e',
  'tunuk-:zarfii-e',
  'vaadii-e',
  'varaq-gardaanii-e',
  'zabaanii-e',
  'zabaanii',
  'zabuunii-e',
  'zindaanii-e',
  'zindagaanii-e',
  'zindagaanii'],
 124)

In [44]:
mark_okay_lemmas(to_add)

In [46]:
print_stats()


Currently there are  479  out of  4101

In [47]:
update_files()

In [48]:
print_stats()


Currently there are  479  out of  4101

In [51]:
update_tokens_remaining()

In [58]:
ends_with('))uu;n')


Out[58]:
['aa))uu;n',
 'bataa))uu;n',
 'jaa))uu;n',
 'khaa))uu;n',
 'laa))uu;n',
 'paa))uu;n',
 'ro))uu;n',
 'sunaa))uu;n']

In [6]:
ends_with('haa-e')


Out[6]:
[';gala:tiihaa-e',
 ';gamhaa-e',
 'aavaaragiihaa-e',
 'bahaa-e',
 'bekasii-haa-e',
 'chashmhaa-e',
 'guharhaa-e',
 'gul-fishaaniihaa-e',
 'gulhaa-e',
 'mihrbaaniihaa-e',
 'navaahaa-e',
 'sa;xt-jaaniihaa-e',
 'saadagiihaa-e',
 'sitamhaa-e',
 'ta;gaafulhaa-e',
 'tabassumhaa-e',
 'tamaashaa-e',
 'va;hshat-;xiraamiihaa-e',
 'zabaa;nhaa-e']

In [4]:
[x[:-5] for x in ends_with('haa-e') if x in tokens_remaining]


Out[4]:
[';gala:tii',
 ';gam',
 'aavaaragii',
 'ba',
 'bekasii-',
 'chashm',
 'guhar',
 'gul-fishaanii',
 'gul',
 'mihrbaanii',
 'navaa',
 'sa;xt-jaanii',
 'saadagii',
 'sitam',
 'ta;gaaful',
 'tabassum',
 'tamaas',
 'va;hshat-;xiraamii',
 'zabaa;n']

In [3]:
ends_with('haa-e')


Out[3]:
[]

In [3]:
to_add=[]
for x in [x[:-2] for x in ends_with('-e') if x[:-2] in tokens_remaining]:
#    lemmas[x] = [x]
    lemmas[x+'-e'] = lemmas[x]
    to_add.append(x)
    to_add.append(x+'-e')
    print x, lemmas[x]


;gam-;xvaar [';gam-;xvaar']
;gam [';gam']
;gamzah [';gamzah']
;gubaar [';gubaar']
;gunchah [';gunchah']
;guruur [';guruur']
;ha.zrat [';ha.zrat']
;haa.sil [';haa.sil']
;haajat [';haajat']
;haal [';haal']
;hairat [';hairat']
;haq [';haq']
;haqiiqat [';haqiiqat']
;harf [';harf']
;hariif [';hariif']
;hasrat [';hasrat']
;hasrat-parast [';hasrat-parast']
;hijaab [';hijaab']
;hinaa [';hinaa']
;hu.zuur [';hu.zuur']
;husn [';husn']
;savaab [';savaab']
;xaa:tir [';xaa:tir']
;xaak [';xaak']
;xaamah [';xaamah']
;xaar [';xaar']
;xalish [';xalish']
;xalvat [';xalvat']
;xam [';xam']
;xaraab [';xaraab']
;xariidaar [';xariidaar']
;xas [';xas']
;xas-o-;xaashaak [';xas-o-;xaashaak', ';xas', ';xaashaak']
;xastah [';xastah']
;xauf [';xauf']
;xayaal [';xayaal']
;xiraam [';xiraam']
;xirman [';xirman']
;xum [';xum']
;xumaar [';xumaar']
;xuu;n-baar [';xuu;n-baar']
;xvaab [';xvaab']
;xvurshiid [';xvurshiid']
;zarrah [';zarrah']
;zauq [';zauq']
a.sl ['a.sl']
a;hvaal ['a;hvaal']
a;sar ['a;sar']
aa))iinah ['aa))iinah']
aa))inah ['aa))inah']
aab ['aab']
aab-o-havaa ['aab-o-havaa', 'aab', 'havaa']
aabaad ['aabaad']
aafat ['aafat']
aaftaab ['aaftaab']
aah ['aah']
aamad ['aamad']
aaraa))ish ['aaraa))ish']
aashnaa ['aashnaa']
aatish ['aatish']
aazaar ['aazaar']
abr ['abr']
adaa ['adaa']
ajzaa ['ajzaa']
alam ['alam']
andaaz ['andaaz']
angusht ['angusht']
anjuman ['anjuman']
asad ['asad']
ashk ['ashk']
auj ['auj']
ba((d ['ba((d']
ba;gair ['ba;gair']
ba;hr ['ba;hr']
ba;xyah ['ba;xyah']
baa((i;s ['baa((i;s']
baa;g ['baa;g']
baab ['baab']
baad ['baad']
baadah ['baadah']
baalish ['baalish']
baar ['baar']
baazaar ['baazaar']
bahaar ['bahaar']
bajaa ['bajaa']
balaa ['balaa']
band ['band']
barq ['barq']
bayaabaa;n-navard ['bayaabaa;n-navard']
bayaan ['bayaan']
bazm ['bazm']
be-;hijaab ['be-;hijaab']
be-daad ['be-daad']
be-i;xtiyaar ['be-i;xtiyaar']
bedaad ['bedaad']
biim ['biim']
biimaar ['biimaar']
bistar ['bistar']
bulbul ['bulbul']
but ['but']
buud ['buud']
chaak ['chaak']
char;x ['char;x']
chashm ['chashm']
chiraa;g ['chiraa;g']
da((v;aa ['da((v;aa']
daa;g ['daa;g']
daam ['daam']
daftar ['daftar']
dahan ['dahan']
daliil ['daliil']
dam ['dam']
dar ['dar']
dar-o-diivaar ['dar-o-diivaar', 'dar', 'diivaar']
dard ['dard']
daryaa ['daryaa']
dashnah ['dashnah']
dasht ['dasht']
dast ['dast']
daur ['daur']
diidaar ['diidaar']
diidah ['diidah']
diivaar ['diivaar']
dimaa;g ['dimaa;g']
dushman ['dushman']
duud ['duud']
fa.sl ['fa.sl']
falak ['falak']
fard ['fard']
fareb ['fareb']
farq ['farq']
farsh ['farsh']
faryaad ['faryaad']
fikr ['fikr']
firaaq ['firaaq']
fitnah ['fitnah']
fur.sat ['fur.sat']
furo;g ['furo;g']
gadaa ['gadaa']
gard ['gard']
gardan ['gardan']
gardish ['gardish']
garm ['garm']
gauhar ['gauhar']
gavaah ['gavaah']
girah ['girah']
giriftaar ['giriftaar']
giryah ['giryah']
gor ['gor']
gosh ['gosh']
guftaar ['guftaar']
gul-chiin ['gul-chiin']
gul-farosh ['gul-farosh']
gumaan ['gumaan']
gunjaa))ish ['gunjaa))ish']
halaak ['halaak']
hangaamah ['hangaamah']
havaa ['havaa']
havas ['havas']
hijr ['hijr']
himmat ['himmat']
i((tibaar ['i((tibaar']
i((timaad ['i((timaad']
i.z:tiraab ['i.z:tiraab']
idraak ['idraak']
ijaazat ['ijaazat']
iltifaat ['iltifaat']
inti:zaar ['inti:zaar']
iqliim ['iqliim']
isti;gnaa ['isti;gnaa']
jaa ['jaa']
jaadah ['jaadah']
jaam ['jaam']
jaan ['jaan']
jahaan ['jahaan']
jam((-o-;xarj ['jam((-o-;xarj', 'jam((', ';xarj']
jamaal ['jamaal']
jannat ['jannat']
jaraa;hat ['jaraa;hat']
jauhar ['jauhar']
javaahir ['javaahir']
jeb ['jeb']
jigar ['jigar']
josh ['josh']
junbish ['junbish']
juuyaa ['juuyaa']
juzv ['juzv']
kaa;ga;z ['kaa;ga;z']
kaakul ['kaakul']
kaam ['kaam']
kaar-o-baar ['kaar-o-baar', 'kaar', 'baar']
kaasah ['kaasah']
kamaal ['kamaal']
kashmakash ['kashmakash']
kisht ['kisht']
koh ['koh']
kushtah ['kushtah']
lab ['lab']
libaas ['libaas']
lu:tf ['lu:tf']
ma((shuuq ['ma((shuuq']
ma:tlab ['ma:tlab']
ma;hruum ['ma;hruum']
ma;hshar ['ma;hshar']
ma;hv ['ma;hv']
maah ['maah']
maana(( ['maana((']
maanind ['maanind']
maatam ['maatam']
mad;h ['mad;h']
mah ['mah']
mai-;xaanah ['mai-;xaanah']
mai ['mai']
mai-kadah ['mai-kadah']
maktab ['maktab']
maq.sad ['maq.sad']
maqaam ['maqaam']
marg ['marg']
mast ['mast']
mauj ['mauj']
mausam ['mausam']
mihr ['mihr']
miinaa ['miinaa']
minnat ['minnat']
mu.siibat ['mu.siibat']
mu:trib ['mu:trib']
mudda((aa ['mudda((aa']
muft ['muft']
muhr ['muhr']
mur;g ['mur;g']
mushaahadah ['mushaahadah']
mushkil ['mushkil']
mushtaaq ['mushtaaq']
muzhdah ['muzhdah']
na:z:zaarah ['na:z:zaarah']
na:zaarah ['na:zaarah']
na;zr ['na;zr']
naam ['naam']
naamah ['naamah']
naamuus ['naamuus']
naaz ['naaz']
nabard ['nabard']
nadiim ['nadiim']
nafas ['nafas']
nairang ['nairang']
naqaab ['naqaab']
naqd ['naqd']
naqsh ['naqsh']
nashshah ['nashshah']
nasiim ['nasiim']
nigaah ['nigaah']
nigah ['nigah']
nishaan ['nishaan']
niyaaz ['niyaaz']
nuur ['nuur']
paa ['paa']
paas ['paas']
pai;gaam ['pai;gaam']
paikaan ['paikaan']
par ['par']
pardah ['pardah']
partav ['partav']
parvaaz ['parvaaz']
pech-o-taab ['pech-o-taab', 'pech', 'taab']
piir ['piir']
punbah ['punbah']
qa:trah ['qa:trah']
qabaa ['qabaa']
qad ['qad']
qadr ['qadr']
qafas ['qafas']
qaid ['qaid']
qalam ['qalam']
qatl-gah ['qatl-gah']
qiblah ['qiblah']
qiimat ['qiimat']
qudrat ['qudrat']
raah ['raah']
raftaar ['raftaar']
raftah ['raftah']
rag ['rag']
rah ['rah']
rah-guzar ['rah-guzar']
rahguzaar ['rahguzaar']
rahzan ['rahzan']
rang ['rang']
ranj ['ranj']
raqiib ['raqiib']
reshah ['reshah']
rishtah ['rishtah']
rizq ['rizq']
roz ['roz']
ru;x ['ru;x']
ru;x.sat ['ru;x.sat']
ru;xsaar ['ru;xsaar']
rusvaa ['rusvaa']
ruu;h ['ruu;h']
sa:tvat ['sa:tvat']
saa;gar ['saa;gar']
saa;hil ['saa;hil']
saamaan ['saamaan']
saayah ['saayah']
saaz ['saaz']
sabaq ['sabaq']
sabz ['sabz']
sabzah ['sabzah']
safar ['safar']
sailaab ['sailaab']
sair ['sair']
sang ['sang']
sar ['sar']
sar-garm ['sar-garm']
sar-taa-sar ['sar-taa-sar']
saraab ['saraab']
sarmaayah ['sarmaayah']
sarshaar ['sarshaar']
sarv ['sarv']
saudaa ['saudaa']
sazaa ['sazaa']
shaah ['shaah']
shaahid ['shaahid']
shaam ['shaam']
shakl ['shakl']
sharaab ['sharaab']
sharaar ['sharaar']
sharm ['sharm']
sharmindah ['sharmindah']
shauq ['shauq']
shevah ['shevah']
shiiraazah ['shiiraazah']
shiishah ['shiishah']
shikaar ['shikaar']
shikan ['shikan']
shikast ['shikast']
shikvah ['shikvah']
sho;x ['sho;x']
shor ['shor']
shoriidah ['shoriidah']
shu((aa(( ['shu((aa((']
shu((lah ['shu((lah']
shumaar ['shumaar']
siinah ['siinah']
sijdah ['sijdah']
sipaas ['sipaas']
sivaa ['sivaa']
su;xan ['su;xan']
sub;hah ['sub;hah']
suraa;g ['suraa;g']
surmah ['surmah']
taskiin ['taskiin']
tasliim ['tasliim']
te;g ['te;g']
tez ['tez']
tiir ['tiir']
tim;saal ['tim;saal']
ulfat ['ulfat']
va((dah ['va((dah']
va.sl ['va.sl']
va;hshat ['va;hshat']
vaa-bastah ['vaa-bastah']
vabaal ['vabaal']
vafaa ['vafaa']
vahm ['vahm']
vaj'h ["vaj'h"]
vaqt ['vaqt']
vi.saal ['vi.saal']
vidaa(( ['vidaa((']
vujuud ['vujuud']
vus((at ['vus((at']
yuusuf ['yuusuf']
za;hmat ['za;hmat']
za;xm ['za;xm']
zahr ['zahr']
zahrah ['zahrah']
zamaanah ['zamaanah']
zanjiir ['zanjiir']
zar ['zar']
zulf ['zulf']

In [4]:
mark_okay_lemmas(to_add)
print_stats()


Currently there are  1394  out of  4101

In [5]:
update_files()


Currently there are  1394  out of  4101

In [8]:
tokens_remaining


Out[8]:
['((ar.se',
 '((uhde',
 '((uqde',
 ':ta((no;n',
 ':tabii((ato;n',
 ':tay',
 ':zan',
 ':zann',
 ':zulmat-kade',
 ';daal',
 ';daalaa',
 ';daale;nge',
 ';daaliye',
 ';dar',
 ';daraataa',
 ';dare',
 ';dartaa',
 ';darte',
 ';dhaa;npaa',
 ';dhuu;n;de',
 ';dhuu;n;dhaa',
 ';dhuu;n;dhe',
 ';dhuu;n;dtaa',
 ';dubo',
 ';duboyaa',
 ';duubii',
 ';gam-;xaane',
 ';gam-;xvaaragii',
 ';gam-;xvaarii',
 ';gam-gusaar',
 ';gam-gusaarii',
 ';gam-kadah',
 ';gam-naak',
 ';gam-o-shaadii',
 ';gammaazii',
 ';gamzah-o-((ishvah-o-adaa',
 ';gamze',
 ';ganiimat',
 ';gariib',
 ';gariib-navaaz',
 ';gariibaa;n',
 ';gariibii',
 ';garq-e',
 ';garqah-e',
 ';garrah-e',
 ';gash',
 ';gayuur',
 ';gazaal',
 ';gazal',
 ';gazal-;xvaa;n',
 ';gazal-;xvaanii',
 ';gazal-saraa',
 ';gulaam-e',
 ';gunche',
 ';gurbat',
 ';gusl-e',
 ';ha:z:z-e',
 ';ha;zar',
 ';haa))il',
 ';haajaat',
 ';haajat-mand',
 ';haalaa;nkih',
 ';haalat',
 ';habaab-e',
 ';had',
 ';hadii;s-e',
 ';haif',
 ';hairaa;n',
 ';hairaanii',
 ';hairat-kadah-e',
 ';haj',
 ';hall-e',
 ';halqe',
 ';hammaam',
 ';hamzah',
 ';haq-shinaas',
 ';haqq-e',
 ';haraam',
 ';harakat',
 ';haram',
 ';harii.s-e',
 ';hasad',
 ';hasb-e',
 ';hashr',
 ';hasrat-sanj',
 ';hasrat-zadah',
 ';hasrataa',
 ';hasuud',
 ';hau.salah',
 ';hau.slah',
 ';hau.sle',
 ';havaadi;s',
 ';hayaa',
 ';hayaat-e',
 ';hayaat-o-band-e',
 ';hazii;n',
 ';hiile',
 ';hijaab-o-vidaa((-e',
 ';hijr',
 ';hijraa;n',
 ';hikaayaat-e',
 ';hikaayat-e',
 ';hikmat',
 ';hinaa))ii',
 ';hisaab',
 ';hujjat',
 ';hujrah',
 ';hukm',
 ';husain',
 ';husn-parastii',
 ';huur',
 ';huuraan-e',
 ';huure;n',
 ';saabit',
 ';saanii',
 ';sabaat',
 ';taale;nge',
 ';tapaktaa',
 ';tapaktii',
 ';tapkaa',
 ';tapkaane',
 ';tapke',
 ';te;rhaa',
 ';thaanii',
 ';thahraa',
 ';thahre;n',
 ';than;daa',
 ';tuk;raa',
 ';tuu;t',
 ';tuu;te',
 ';xa:t-e',
 ';xa:t:t-e',
 ';xa:t:t-o-;xaal',
 ';xa:taa',
 ';xa:tar',
 ';xaa;n',
 ';xaak-andaaz',
 ';xaakistar-nishiinii',
 ';xaakistar-o-bulbul',
 ';xaal-e',
 ';xaalii',
 ';xaaliq-e',
 ';xaam',
 ';xaamah-farsaa',
 ';xaamosh',
 ';xaamoshii',
 ';xaamushii',
 ';xaan-maa;n',
 ';xaan-maa;n-;xaraab',
 ';xaanah-;xaraabii',
 ';xaanah-aaraa))ii',
 ';xaanah-e',
 ';xaanah-viiraa;n-saaz',
 ';xaanah-viiraanii',
 ';xaanah-zaad-e',
 ';xaanaqaah',
 ';xaar-;xaar-e',
 ';xaaraa',
 ';xaashaak',
 ';xaatim-e',
 ';xaatir-e',
 ';xabar',
 ';xafaa',
 ';xafaa))ii',
 ';xafaqaanii',
 ';xair',
 ';xair-baad',
 ';xajaalat',
 ';xajlat-e',
 ';xalal',
 ';xalq',
 ';xalvat-o-jalvat',
 ';xamosh',
 ';xamoshii',
 ';xamoshiyo;n',
 ';xamyaazah',
 ';xanjar',
 ';xanjar-aazmaa',
 ';xaraabaat',
 ';xaraabii',
 ';xaraash-e',
 ';xastagii',
 ';xastah-jaa;n',
 ';xastah-tan',
 ';xatm',
 ';xayaalii',
 ';xeme',
 ';xi.zr',
 ';xi:t:tah-e',
 ';xi;zr',
 ';xirad',
 ';xirqah-o-sajjaadah',
 ';xissat',
 ';xiyaabaa;n',
 ';xizaa;n',
 ';xo',
 ';xudaa',
 ';xudaa))ii',
 ';xudaa-parast',
 ';xudaa-saaz',
 ';xudaavand-e',
 ';xuftah',
 ';xuld',
 ';xum-kadah',
 ';xushk',
 ';xusrau',
 ';xusrav-e',
 ';xuu-e',
 ';xuu-gar',
 ';xuu-kardah-e',
 ';xuu;n',
 ';xuu;n-;galtiidah-e',
 ';xuu;n-;galtiidan-e',
 ';xuu;n-bahaa',
 ';xuu;n-chakaa;n',
 ';xuu;n-fishaa;n',
 ';xuu;n-gashtah',
 ';xuu;n-naab',
 ';xuu;n-naabah',
 ';xuu;n-naabah-fishaa;n',
 ';xuu;n-naabah-fishaanii',
 ';xuu;n-naabah-mashrab',
 ';xuu;n-rez',
 ';xuu;n-shudah-e',
 ';xuub',
 ';xuub-ruuyo;n',
 ';xuubaa;n',
 ';xuubaan-e',
 ';xuun-e',
 ';xuunii;n-navaa-e',
 ';xvaab-naak',
 ';xvaahish',
 ';xvaahishe;n',
 ';xvaarii',
 ';xvaastah',
 ';xvud',
 ';xvud-aaraa',
 ';xvud-aaraa))ii',
 ';xvud-biin-o-;xvud-aaraa',
 ';xvud-raftah-e',
 ';xvudaa',
 ';xvur',
 ';xvurshed',
 ';xvurshiid-jamaal',
 ';xvurshiid-o-maah',
 ';xvush',
 ';xvush-;haal',
 ';xvush-navaayaan-e',
 ';xvush-o-naa-;xvush',
 ';xvushaa',
 ';xvushaamad-:talabo;n',
 ';xvushii',
 ';xvushtar',
 ';zaahir',
 ';zaat',
 ';zahn',
 ';zaliil',
 ';zaraa',
 ';zarii((ah-e',
 ';zarre',
 ';zauq-fizaa',
 ';zikr',
 ';zillat',
 ';zimmah',
 'a((.zaa',
 'a((:zam',
 'a((maar',
 'a.snaam-e',
 'a:tfaal',
 'a;gyaar',
 'a;hbaab',
 'a;hmaqo;n',
 'a;hraam',
 'a;ndherii',
 'a;xtar',
 'a;xtar-shumaarii',
 'aa',
 'aa))e',
 'aa))e;n',
 'aa))e;nge',
 'aa))ii',
 'aa))iin-e',
 'aa))iinah-;xaane',
 'aa))iinah-daarii',
 'aa))iine',
 'aa))inah-;xaane',
 'aa))inah-daar',
 'aa))inah-pardaaz',
 'aa))inah-siimaa',
 'aa))ine',
 'aa))iyo',
 'aa))o',
 'aa))uu;n',
 'aa;gosh-e',
 'aa;gosh-kushaa',
 'aa;gosh-kushaa))ii',
 'aa;nkh',
 'aa;nkhe;n',
 'aa;nkho;n',
 'aa;xir',
 'aa;zar-fishaa;n',
 'aab-daar',
 'aab-giinah',
 'aab-o-gil',
 'aabaadii',
 'aabilah-paa',
 'aabilo;n',
 'aablah',
 'aabruu-e',
 'aadam',
 'aadmii',
 'aafaaq',
 'aafiriinish',
 'aaftaab-parast',
 'aag',
 'aagahii',
 'aage',
 'aah-o-faryaad',
 'aah-o-fi;gaa;n',
 'aahan',
 'aahang-e',
 'aahe;n',
 'aahuu-e',
 'aaj',
 'aalaat-e',
 'aaluudah',
 'aamad-aamad-e',
 'aan',
 'aanaa',
 'aane',
 'aap',
 'aaraam',
 'aaramiidagii',
 'aare',
 'aarzuu))e;n',
 'aarzuu-;xiraamii',
 'aarzuu-e',
 'aas',
 'aasaa))ish',
 'aasaa;n',
 'aashiyaa;n',
 'aashiyaan',
 'aashnaa))ii',
 'aashob-e',
 'aashuftagii',
 'aashuftah-bayaanii',
 'aashuftah-navaa',
 'aashuftah-sar',
 'aashuftah-saro;n',
 'aasmaa;n',
 'aasmaan',
 'aasmaanii',
 'aastaa;n',
 'aastaan-e',
 'aastii;n',
 'aataa',
 'aate',
 'aatii',
 'aatish-afshaanii',
 'aatish-baar',
 'aatish-diidah',
 'aatish-kadah',
 'aatish-nafas',
 'aatish-parast',
 'aatish-zadah',
 'aatishii;n',
 'aavaaragii',
 'aavaarah',
 'aavaaz',
 'aave',
 'aave;n',
 'aave;nge',
 'aayaa',
 'aaye',
 'aazaad',
 'aazaadah-o-;xvud-bii;n',
 'aazaado;n',
 'aazmaa))e',
 'aazmaa))ish',
 'aazmaanaa',
 'aazmaane',
 'aazurdah',
 'ab',
 'abhii',
 'abjad',
 'abnaa-e',
 'abr-o-baad',
 'abr-o-shab-e',
 'achchhaa',
 'achchhe',
 'achchho;n',
 'adab',
 'af((ii',
 'afgaar',
 'afsaanah',
 'afshardah-e',
 'afshurdan',
 'afsos',
 'afsurdah',
 'afsuun-e',
 'afsuus',
 'afzaa))ish-e',
 'agar',
 'agarchih',
 'agle',
 'aham',
 'ahl-e',
 'aisaa',
 'aise',
 'aisii',
 'ak;sar',
 'akbar',
 'al-amaa;n',
 'al-ba;hr',
 'al-havas',
 'al-l;aah',
 'al-ra;gm-e',
 'alif',
 'almaas',
 'amaa;n',
 'amn',
 'anaa',
 'andaaz-o-adaa',
 'andaazah-e',
 'andaaze',
 'andar',
 'andeshe',
 'andher',
 'andoh-e',
 'andoh-rubaa',
 'angez',
 'anguur',
 'anjaam-e',
 'anjum-e',
 'apnaa',
 'apnaa-saa',
 'apne',
 'apnii',
 'arbaab-e',
 'armaan',
 'armu;gaa;n',
 'arzaa;n',
 'asaamii',
 'asad-ul-l;aah',
 'asbaab-e',
 'ash((aar',
 'ashk-baarii',
 'ashyaa',
 'asiir',
 'asiirii',
 'asiiro;n',
 'au.zaa((-e',
 'aur',
 'auraaq-e',
 'aurang-e',
 'auro;n',
 'ay',
 'ayaa;g',
 'ayyaam-e',
 'az',
 'az-baskih',
 'az-dast-raftah',
 'azal',
 'ba((iid',
 'ba:t-e',
 'ba;gal',
 'ba;ndhaa',
 'ba;ndhe',
 'ba;rh',
 'ba;xsh',
 'ba;xshe',
 'ba;xt-e',
 'ba;xye',
 'baa',
 'baa))i;s',
 'baa-ham-digar',
 'baa-vujuud-e',
 'baa:til',
 'baa:tin',
 'baa;g-baan',
 'baa;g-baan-o-kaf-e',
 'baa;ndh',
 'baa;ndhaa',
 'baa;ndhe',
 'baa;ndhiye',
 'baa;ndhte',
 'baa;ng-e',
 'baa;xtan',
 'baad-o-bah',
 'baad-pemaa))ii',
 'baadah-;xvaar',
 'baadah-aashaamii',
 'baadah-o-saa;gar',
 'baadbaan-e',
 'baadshaah',
 'baag',
 'baahar',
 'baajaa',
 'baal-e',
 'baal-kushaa',
 'baal-o-par',
 'baalii;n',
 'baaliin-e',
 'baam',
 'baanii',
 'baaqii',
 'baar-haa',
 'baarbud-e',
 'baare',
 'baarish',
 'baat',
 'baate;n',
 'baato;n',
 'baavar',
 'baavujuud-e',
 'baaz',
 'baaz-gasht',
 'baaziichah-e',
 'bachcho;n',
 'bache;n',
 'bachte',
 'bad',
 'bad-((ahdii',
 'bad-;xuuyaa;n',
 'bad-;xvaah',
 'bad-gumaa;n',
 'bad-mast',
 'bad-naam',
 'bad-tar',
 'badalne',
 'badan',
 'badii',
 'badlaa',
 'badle',
 'badr',
 'bah',
 'bah-;zarrah',
 'bahaa))ii',
 'bahaadur-e',
 'bahaanah-e',
 'bahaane',
 'bahaarii',
 'baham',
 'bahne',
 'bahr-e',
 'bahraa',
 'bahtar',
 'bahut',
 'bai.zah-aasaa',
 'bai.zah-e',
 'bai;th',
 'bai;thaa',
 'bai;the',
 'bai;the;n',
 'bai;thiye',
 'bai;thnaa',
 'baidaa-e',
 'bairuun-e',
 'bak',
 'bal;gamii',
 'balaa))e;n',
 'balaa))o;n',
 'ban',
 "ban'ne",
 'banaa',
 'banaa))e',
 'banaa))o',
 'banaat-ul-na((sh-e',
 'banaayaa',
 'band-o-bast',
 'bandah-parvar',
 'bane',
 'bane;nge',
 'banegii',
 'banii',
 'baniye',
 'bante',
 'bantii',
 'baqaa',
 'bar',
 'bar-:taraf',
 'bar-;xvurdaar-e',
 'bar-ham',
 'bar-paa',
 'bar-ruu-e',
 'bar-sabiil-e',
 'baraa))e',
 'baraa-e',
 'baraabar',
 'baraat-e',
 'barahman',
 'barahnagii',
 'baras',
 'barastii',
 'bard-e',
 'barg-e',
 'barii;n',
 'barjaa-maa;ndah',
 'barq-;xiraam',
 'barsaat',
 'barsh-kaal',
 'barshkaal-e',
 'barso;n',
 'bas',
 'bashar',
 'baskih',
 'bastiyo;n',
 'bataa',
 'bataa))o',
 'bataa))uu;n',
 'batlaa',
 'batlaa))e;n',
 'batlaa))o',
 'bayaa;n',
 'bayaabaa;n',
 'bazm-aaraa))iyaa;n',
 'be',
 'be-((ishq',
 'be-.sadaa',
 'be-.sarfah',
 'be-:talab',
 'be-;haa.sil',
 'be-;hau.slagii',
 'be-;hijaabiyaa;n',
 'be-;his',
 'be-;xabar',
 'be-;xarosh',
 'be-;xuun-e',
 'be-;xvaab',
 'be-;xvaabii',
 'be-;xvudii-o-hushyaarii',
 'be-;xvudo;n',
 'be-a;sar',
 'be-adabo;n',
 'be-ayyaam-e',
 'be-baak',
 'be-bahrah',
 'be-bunyaad',
 'be-chain',
 'be-daad-fan',
 'be-dar',
 'be-dar-o-diivaar',
 'be-darvaazah',
 'be-dast-o-paa',
 'be-dast-o-paa))ii',
 'be-davaa',
 'be-dilii',
 'be-dimaa;g',
 'be-dimaa;gii',
 'be-girah',
 'be-gunah',
 'be-gunah-kush-o-;haq',
 'be-havaa-e',
 'be-i((tidaaliyo;n',
 'be-iltifaatii',
 'be-jaa',
 'be-jurm',
 'be-ka;saafat',
 'be-kafan',
 'be-karaa;n',
 'be-mai',
 'be-mazaa',
 'be-mihr',
 'be-minnat-e',
 'be-mu;haabaa',
 'be-mudda((aa',
 'be-nang-o-naam',
 'be-niyaazii',
 'be-panaah',
 'be-par-o-baalii',
 'be-pardah',
 'be-partav-e',
 'be-parvaa',
 'be-qaraar',
 'be-qaraarii',
 'be-sabab',
 'be-sar-o-paa',
 'be-savaal',
 'be-shaanah-e',
 'be-sham((a',
 'be-sharaab-o-dil-e',
 'be-shiiraazah',
 'be-taabii',
 'be-takalluf',
 'be-vafaa',
 'be-vafaa))ii',
 'be-zaar',
 'be-zabaa;n',
 'be-zabaanii',
 'be-zabaano;n',
 'bebaakii-o-gustaa;xii',
 'bed',
 'bedaad-gar',
 'bedaar-e',
 'bedard',
 'bedil',
 'begaanah-e',
 'bekaar',
 'beqaraarii',
 'besh',
 'betaab',
 'betaabii',
 'bevafaa',
 'bhaa))ii',
 'bhaagaa',
 'bhaage',
 'bhaage;nge',
 'bhaagne',
 'bhalaa',
 'bhale',
 'bhar',
 'bharam',
 'bhare',
 'bharne',
 'bharuu;n',
 'bhed',
 'bhes',
 'bhii',
 'bho;n',
 'bhuuke',
 'bhuul',
 'bhuulaa',
 'bhuule',
 'bichhaa))e',
 'biga;r',
 'biga;rnaa',
 'biga;rtaa',
 'bihisht',
 'bihisht-shamaa))il',
 'biimaar-daar',
 'biinaa',
 'biinaa))ii',
 'biinish',
 'bijlii',
 'bik',
 'bikhar',
 'bin',
 'binaa-e',
 'bisaa:t-e',
 'bismil',
 'bo',
 'bodaa',
 'bojh',
 'bolaa',
 'bole',
 'boriyaa',
 'bos-e',
 'bosah',
 'bose',
 'bote',
 'bove',
 'bu((d',
 'bujhaa',
 'bujhaa))e',
 'bujhte',
 'bujhtii',
 'bulaa',
 'bulaa))e',
 'bulaataa',
 'bulandii',
 'bulbule;n',
 'bun-e',
 'buraa',
 'buraa))ii',
 'burdah',
 'burdan-e',
 'burii',
 'burrish-e',
 'bustaanii',
 'but-;xaanah',
 'but-;xaane',
 'but-kade',
 'but-shikanii',
 'butaa;n',
 'buto;n',
 "buu-'l-havas",
 'buu-e',
 'buu-turaab',
 'buu;nd',
 'buzurg',
 'cha;rh',
 'cha;rhii',
 'cha;taknaa',
 'chaah',
 'chaahaa',
 'chaahe',
 'chaahe;n',
 'chaahiye',
 'chaahne',
 'chaahne-vaalaa',
 'chaaho',
 'chaahtaa',
 'chaahte',
 'chaahuu;n',
 'chaal',
 'chaalaak',
 'chaar',
 'chaar-duham',
 'chaar-mauj',
 'chaarah-e',
 'chaarah-gar',
 'chaarah-juu))ii',
 'chaarah-saaz',
 'chahrah',
 'chahre',
 'chain',
 'chakiidan',
 'chakkar',
 'chal',
 'chalaa',
 'chale',
 'chale;n',
 'chalii',
 'chalne',
 'chaltaa',
 'chaltii',
 'chaman',
 'chand',
 'chande',
 'chang',
 'chang-o-rabaab',
 'charchaa',
 'chashm-numaa))ii',
 'chashm-o-chiraa;g-e',
 'chashm-o-gosh',
 'chhalle',
 'chhe;r',
 'chhe;re',
 'chhe;re;nge',
 'chhe;riye',
 'chhe;ruu;n',
 'chhi;rkaa',
 'chhi;rke',
 'chhi;rke;n',
 'chhide',
 'chho;r',
 'chho;raa',
 'chho;re',
 'chho;re;n',
 'chho;re;nge',
 'chho;rii',
 'chho;ro',
 'chho;ruu;ngaa',
 'chhu;t',
 'chhu;taa',
 'chhu;tii',
 'chhupaa))e',
 'chhupaanaa',
 'chhupaane',
 'chhupnaa',
 'chhurii',
 'chhuu;taa',
 'chhuu;tuu;n',
 'chii;xuu;n',
 'chiin-e',
 'chiir',
 'chiiz',
 'chipak',
 'chiraa;gaa;n',
 'chiraa;gaan-e',
 'chor',
 'chorii',
 'chubho',
 'chuke',
 'chukii;n',
 'chuntaa',
 'chup',
 'chupke',
 'churaanaa',
 'da((vaa-e',
 'da((vat-e',
 'da((ve',
 'daa))im',
 'daa))im-ul-;habs',
 'daa;g-saamaa;n',
 'daa;go;n',
 'daa;nto;n',
 'daab',
 'daabte',
 'daad',
 'daad-;xvaah',
 'daad-o-sitad',
 'daadah',
 'daam-gaah',
 'daamaa;n',
 'daamaan-e',
 'daaman',
 'daaman-afshaanii',
 'daaman-o-taar-e',
 'daanaa',
 'daanah',
 'daar-o-rasan',
 'daastaan-e',
 'dab',
 'dabaa',
 'dabii',
 'dabistaa;n',
 'daf((-e',
 'dafiinah',
 'dafn',
 'dahaa;n',
 'dahaan-e',
 'dahr',
 'dai',
 'dair',
 'dallaal-e',
 'dandaa;n',
 'dandaa;n-numaa',
 'dar-;xvar',
 'dar-;xvur-e',
 'dar-havaa-e',
 'dar-kaar',
 'dar-maa;ndagii',
 'dar-pa-e',
 'dar-pardah',
 'dar-qafaa-e',
 'dar-tishnagii-murdagaa;n',
 'dara;xshaa;n',
 'daraaz',
 'daraazii',
 'darbaa;n',
 'darbaanii',
 'dard-mand',
 'dard-o-alam',
 'dare;g',
 'dare;gaa',
 'darmaa;ndagii',
 'darmiyaa;n',
 'dars-e',
 'daruu;n',
 'darvaazah',
 'darvesh',
 'daryaa-aashnaa',
 'dashnah-o-;xanjar',
 'dashne',
 'dasht-navardii',
 'dast-gaah-e',
 'dast-gardaa;n',
 'dast-giirii',
 'dast-o-;xanjar-e',
 'dast-o-paa',
 'dastaar',
 'dau;raa))e',
 'dau;re',
 'dau;rte',
 'daulat-o-dii;n',
 'davaa',
 'davaam',
 'de',
 'de;n',
 'de;nge',
 'dekh',
 'dekhaa',
 'dekhe',
 'dekhe;n',
 'dekhii',
 'dekhiye',
 'dekhnaa',
 'dekhne',
 'dekho',
 'dekhtaa',
 'dekhte',
 'dekhuu;n',
 'denaa',
 'dene',
 'denii',
 'detaa',
 'dete',
 'dhabbe',
 'dhamkii',
 'dharaa',
 'dhaul-dhappaa',
 'dho',
 'dho))e',
 'dhokaa',
 'dhoke',
 'dhotaa',
 'dhuvaa;n',
 'digar',
 'dihqaa;n',
 'dii',
 'dii;n-daar',
 'diid',
 'diidaar-jo',
 'diidah-o-dil',
 'diigar',
 'diije',
 'diijiye',
 'diijiyo',
 'diin-o-dil',
 'diivaan-e',
 'diivaanah',
 'diivaar-o-dar',
 'diivaaro;n',
 'dijlah',
 'dikhaa',
 'dikhaa))e;n',
 'dikhaa))ii',
 'dikhaa))uu;ngaa',
 'dikhaataa',
 ...]

In [25]:
[x+','+','.join(lemmas[x]) for x in search_tokens('-o-')]


Out[25]:
["rang-o-saaz'haa,rang-o-saaz,rang,saaz",
 'najaf-o-:tauf-e,najaf-o-:tauf,najaf,:tauf',
 'naaqi.s-o-kaamil,naaqi.s-o-kaamil,naaqi.s,kaamil',
 'fu.zuul-o-jur))at-e,fu.zuul-o-jur))at,fu.zuul,jur))at',
 'be-nang-o-naam,be-nang-o-naam,be-nang,naam',
 'na:z:zaarah-o-;xayaal,na:z:zaarah-o-;xayaal,na:z:zaarah,;xayaal',
 'dil-o-mizhgaa;n,dil-o-mizhgaa;n,dil,mizhgaa;n',
 'piyaalah-o-saa;gar,piyaalah-o-saa;gar,piyaalah,saa;gar',
 'lab-o-dandaa;n,lab-o-dandaa;n,lab,dandaa;n',
 'dil-o-dil,dil-o-dil,dil,dil',
 'daar-o-rasan,daar-o-rasan,daar,rasan',
 'be-gunah-kush-o-;haq,be-gunah-kush-o-;haq,be-gunah-kush,;haq',
 'shab-o-roz-o-maah-o-saal,shab-o-roz-o-maah-o-saal,shab,roz,maah,saal',
 ';xvud-biin-o-;xvud-aaraa,;xvud-biin-o-;xvud-aaraa,;xvud-biin,;xvud-aaraa',
 '((aish-o-jaah,((aish-o-jaah,((aish,jaah',
 'kaam-o-dahan,kaam-o-dahan,kaam,dahan',
 '((umr-o-asad,((umr-o-asad,((umr,asad',
 'qad-o-gesuu,qad-o-gesuu,qad,gesuu',
 'be-sharaab-o-dil-e,be-sharaab-o-dil,be-sharaab,dil',
 'iimaan-o-aagahii,iimaan-o-aagahii,iimaan,aagahii',
 'sang-o-;xisht,sang-o-;xisht,sang,;xisht',
 'va;hshat-o-sheftah,va;hshat-o-sheftah,va;hshat,sheftah',
 'dard-o-alam,dard-o-alam,dard,alam',
 'vujuud-o-((adam,vujuud-o-((adam,vujuud,((adam',
 'dil-o-jaa;n,dil-o-jaa;n,dil,jaa;n',
 'dast-o-baazuu,dast-o-baazuu,dast,baazuu',
 'qahr-o-((ataab,qahr-o-((ataab,qahr,((ataab',
 'mai-o-saa;gar,mai-o-saa;gar,mai,saa;gar',
 'jeb-o-daaman,jeb-o-daaman,jeb,daaman',
 '.sa;hraa-dast-gaah-o-qa:trah,.sa;hraa-dast-gaah-o-qa:trah,.sa;hraa-dast-gaah,qa:trah',
 '.sub;h-o-mihr,.sub;h-o-mihr,.sub;h,mihr',
 'sar-o-saamaa;n,sar-o-saamaa;n,sar,saamaa;n',
 'baal-o-par,baal-o-par,baal,par',
 'diidah-o-dil,diidah-o-dil,diidah,dil',
 'aazaadah-o-;xvud-bii;n,aazaadah-o-;xvud-bii;n,aazaadah,;xvud-bii;n',
 'laalah-o-gul-o-nasrii;n,laalah-o-gul-o-nasrii;n,laalah,gul,nasrii;n',
 'la((l-o-zumurrud-o-zar-o-gauhar,la((l-o-zumurrud-o-zar-o-gauhar,la((l,zumurrud,zar,gauhar',
 'mudda((ii-o-diidah,mudda((ii-o-diidah,mudda((ii,diidah',
 'pech-o-;xam,pech-o-;xam,pech,;xam',
 'suruur-o-soz,suruur-o-soz,suruur,soz',
 'mai-o-angabii;n,mai-o-angabii;n,mai,angabii;n',
 'sair-o-tamaashaa,sair-o-tamaashaa,sair,tamaashaa',
 'jam((-o-;xarj-e,jam((-o-;xarj,jam((,;xarj',
 'daulat-o-dii;n,daulat-o-dii;n,daulat,dii;n',
 'kavaakib-sipah-o-mihr-((alam,kavaakib-sipah-o-mihr-((alam,kavaakib-sipah,mihr-((alam',
 'kaar-o-baar-e,kaar-o-baar,kaar,baar',
 'giryah-o-lab,giryah-o-lab,giryah,lab',
 'jam((-o-;xarj,jam((-o-;xarj,jam((,;xarj',
 'dil-o-dii;n,dil-o-dii;n,dil,dii;n',
 'taab-o-tuvaa;n,taab-o-tuvaa;n,taab,tuvaa;n',
 'dil-o-diidah,dil-o-diidah,dil,diidah',
 'saa;xtah-o-fa.sl-e,saa;xtah-o-fa.sl,saa;xtah,fa.sl',
 'dast-o-paa,dast-o-paa,dast,paa',
 'baadah-o-saa;gar,baadah-o-saa;gar,baadah,saa;gar',
 'dar-o-diivaar-e,dar-o-diivaar,dar,diivaar',
 'saa;gar-o-miinaa,saa;gar-o-miinaa,saa;gar,miinaa',
 'josh-o-;xarosh,josh-o-;xarosh,josh,;xarosh',
 'tasliim-o-badaa,tasliim-o-badaa,tasliim,badaa',
 'kaar-o-baar,kaar-o-baar,kaar,baar',
 'fariiduun-o-jam-o-kai;xusrav-o-daaraab-o-bahman,fariiduun-o-jam-o-kai;xusrav-o-daaraab-o-bahman,fariiduun,jam,kai;xusrav,daaraab,bahman',
 'payaam-o-chashm,payaam-o-chashm,payaam,chashm',
 'rag-o-pai,rag-o-pai,rag,pai',
 'raah-o-rasm-e,raah-o-rasm,raah,rasm',
 'millat-o-mulk,millat-o-mulk,millat,mulk',
 'rah-o-rasm-e,rah-o-rasm,rah,rasm',
 'naaz-o-;gamzah,naaz-o-;gamzah,naaz,;gamzah',
 '((aql-o-dil-o-jaa;n,((aql-o-dil-o-jaa;n,((aql,dil,jaa;n',
 ';hayaat-o-band-e,;hayaat-o-band,;hayaat,band',
 'shikeb-o-.sabr-e,shikeb-o-.sabr,shikeb,.sabr',
 'sho;x-o-((aashiq-e,sho;x-o-((aashiq,sho;x,((aashiq',
 'taab-o-tavaa;n,taab-o-tavaa;n,taab,tavaa;n',
 'aab-o-havaa-e,aab-o-havaa,aab,havaa',
 'andaaz-o-adaa,andaaz-o-adaa,andaaz,adaa',
 ';xvush-o-naa-;xvush,;xvush-o-naa-;xvush,;xvush,naa-;xvush',
 'aab-o-gil,aab-o-gil,aab,gil',
 'chashm-o-gosh,chashm-o-gosh,chashm,gosh',
 'ham-:tar;hii-o-dard-e,ham-:tar;hii-o-dard,ham-:tar;hii,dard',
 'va.sl-o-yaad-e,va.sl-o-yaad,va.sl,yaad',
 'kushaad-o-bast-e,kushaad-o-bast,kushaad,bast',
 'rah-o-sitam-e,rah-o-sitam,rah,sitam',
 'sitam-o-jor-e,sitam-o-jor,sitam,jor',
 'saadagii-o-purkaarii,saadagii-o-purkaarii,saadagii,purkaarii',
 'te;g-o-kafan,te;g-o-kafan,te;g,kafan',
 'sar-o-paa,sar-o-paa,sar,paa',
 'chaman-o-;xuubii-e,chaman-o-;xuubii,chaman,;xuubii',
 'rasm-o-raah,rasm-o-raah,rasm,raah',
 'pur-pech-o-;xam,pur-pech-o-;xam,pur-pech,;xam',
 'qais-o-kohkan,qais-o-kohkan,qais,kohkan',
 ';gamzah-o-((ishvah-o-adaa,;gamzah-o-((ishvah-o-adaa,;gamzah,((ishvah,adaa',
 'yak-((aalam-o-((aalam,yak-((aalam-o-((aalam,yak-((aalam,((aalam',
 'yaas-o-ummiid,yaas-o-ummiid,yaas,ummiid',
 'aah-o-fi;gaa;n,aah-o-fi;gaa;n,aah,fi;gaa;n',
 'rasm-o-rah-e,rasm-o-rah,rasm,rah',
 'pech-o-taab,pech-o-taab,pech,taab',
 'be-;xvudii-o-hushyaarii,be-;xvudii-o-hushyaarii,be-;xvudii,hushyaarii',
 'abr-o-shab-e,abr-o-shab,abr,shab',
 'ma((shuuqii-o-be-;hau.salagii,ma((shuuqii-o-be-;hau.salagii,ma((shuuqii,be-;hau.salagii',
 'saaqii-o-;zauq-e,saaqii-o-;zauq,saaqii,;zauq',
 'bebaakii-o-gustaa;xii,bebaakii-o-gustaa;xii,bebaakii,gustaa;xii',
 '.saa((iqah-o-shu((lah-o-siimaab,.saa((iqah-o-shu((lah-o-siimaab,.saa((iqah,shu((lah,siimaab',
 'chashm-o-chiraa;g-e,chashm-o-chiraa;g,chashm,chiraa;g',
 'daad-o-sitad,daad-o-sitad,daad,sitad',
 'be-sar-o-paa,be-sar-o-paa,be-sar,paa',
 'chang-o-rabaab,chang-o-rabaab,chang,rabaab',
 'jaam-o-subuu,jaam-o-subuu,jaam,subuu',
 ':tarz-o-ravish,:tarz-o-ravish,:tarz,ravish',
 'naqsh-o-nigaar-e,naqsh-o-nigaar,naqsh,nigaar',
 'shab-o-roz,shab-o-roz,shab,roz',
 'shar((-o-aa))iin,shar((-o-aa))iin,shar((,aa))iin',
 'qa:trah-o-mauj-o-;hubaab,qa:trah-o-mauj-o-;hubaab,qa:trah,mauj,;hubaab',
 'tamkiin-o-.zab:t,tamkiin-o-.zab:t,tamkiin,.zab:t',
 'baad-o-bah,baad-o-bah,baad,bah',
 'dil-o-dast-e,dil-o-dast,dil,dast',
 'qahr-o-;ga.zab,qahr-o-;ga.zab,qahr,;ga.zab',
 'daaman-o-taar-e,daaman-o-taar,daaman,taar',
 'dil-o-jigar,dil-o-jigar,dil,jigar',
 'tamkiin-o-hosh,tamkiin-o-hosh,tamkiin,hosh',
 'mihr-o-mah,mihr-o-mah,mihr,mah',
 'savaal-o-javaab,savaal-o-javaab,savaal,javaab',
 'sabzah-o-gul,sabzah-o-gul,sabzah,gul',
 'fitnah-o-fasaad,fitnah-o-fasaad,fitnah,fasaad',
 'abr-o-baad,abr-o-baad,abr,baad',
 'la((l-o-guhar,la((l-o-guhar,la((l,guhar',
 'be-dast-o-paa))ii,be-dast-o-paa))ii,be-dast,paa))ii',
 ';xa:t:t-o-;xaal,;xa:t:t-o-;xaal,;xa:t:t,;xaal',
 '((ishq-o-mazduurii-e,((ishq-o-mazduurii,((ishq,mazduurii',
 'naay-o-nosh,naay-o-nosh,naay,nosh',
 ';xirqah-o-sajjaadah,;xirqah-o-sajjaadah,;xirqah,sajjaadah',
 'ham-peshah-o-ham-mashrab-o-ham-raaz,ham-peshah-o-ham-mashrab-o-ham-raaz,ham-peshah,ham-mashrab,ham-raaz',
 'muqaabil-o-da((vaa-e,muqaabil-o-da((vaa,muqaabil,da((vaa',
 'shai;x-o-barhaman,shai;x-o-barhaman,shai;x,barhaman',
 'shuhuud-o-shaahid-o-mashhuud,shuhuud-o-shaahid-o-mashhuud,shuhuud,shaahid,mashhuud',
 ';hijaab-o-vidaa((-e,;hijaab-o-vidaa((,;hijaab,vidaa((',
 'nashv-o-numaa,nashv-o-numaa,nashv,numaa',
 'be-dar-o-diivaar,be-dar-o-diivaar,be-dar,diivaar',
 'mihr-o-maah,mihr-o-maah,mihr,maah',
 'nisyah-o-naqd-e,nisyah-o-naqd,nisyah,naqd',
 'gah-o-be-gah,gah-o-be-gah,gah,be-gah',
 'naaz-o-adaa,naaz-o-adaa,naaz,adaa',
 'aah-o-faryaad,aah-o-faryaad,aah,faryaad',
 'baa;g-baan-o-kaf-e,baa;g-baan-o-kaf,baa;g-baan,kaf',
 'dast-o-;xanjar-e,dast-o-;xanjar,dast,;xanjar',
 'mai-o-na;gmah,mai-o-na;gmah,mai,na;gmah',
 'fardaa-o-dii,fardaa-o-dii,fardaa,dii',
 'be-dast-o-paa,be-dast-o-paa,be-dast,paa',
 'faryaad-o-aah-o-zaarii,faryaad-o-aah-o-zaarii,faryaad,aah,zaarii',
 'dil-o-chashm-e,dil-o-chashm,dil,chashm',
 ';xas-o-;xaashaak-e,;xas-o-;xaashaak,;xas,;xaashaak',
 ';xvurshiid-o-maah,;xvurshiid-o-maah,;xvurshiid,maah',
 ';gam-o-shaadii,;gam-o-shaadii,;gam,shaadii',
 'be-par-o-baalii,be-par-o-baalii,be-par,baalii',
 ':taa((at-o-zuhd,:taa((at-o-zuhd,:taa((at,zuhd',
 'band-o-bast,band-o-bast,band,bast',
 'shiishah-o-qada;h-o-kuuzah-o-sabuu,shiishah-o-qada;h-o-kuuzah-o-sabuu,shiishah,qada;h,kuuzah,sabuu',
 'aab-o-havaa,aab-o-havaa,aab,havaa',
 'diivaar-o-dar,diivaar-o-dar,diivaar,dar',
 'sar-o-barg-e,sar-o-barg,sar,barg',
 ';xas-o-;xaashaak,;xas-o-;xaashaak,;xas,;xaashaak',
 '((ishq-o-naa-guziir-e,((ishq-o-naa-guziir,((ishq,naa-guziir',
 'sarv-o-.sanobar,sarv-o-.sanobar,sarv,.sanobar',
 'dar-o-diivaar,dar-o-diivaar,dar,diivaar',
 'mihr-o-vafaa,mihr-o-vafaa,mihr,vafaa',
 'gul-o-laalah,gul-o-laalah,gul,laalah',
 'nasheb-o-faraaz,nasheb-o-faraaz,nasheb,faraaz',
 ';xaakistar-o-bulbul,;xaakistar-o-bulbul,;xaakistar,bulbul',
 '((izz-o-naaz,((izz-o-naaz,((izz,naaz',
 'pech-o-taab-e,pech-o-taab,pech,taab',
 'sub;hah-o-zunnaar,sub;hah-o-zunnaar,sub;hah,zunnaar',
 'diin-o-dil,diin-o-dil,diin,dil',
 'ravish-o-mastii-e,ravish-o-mastii,ravish,mastii',
 'qad-o-ru;x,qad-o-ru;x,qad,ru;x',
 'majbuurii-o-da((vaa-e,majbuurii-o-da((vaa,majbuurii,da((vaa',
 'laalah-o-gul,laalah-o-gul,laalah,gul',
 ';xalvat-o-jalvat,;xalvat-o-jalvat,;xalvat,jalvat',
 'dashnah-o-;xanjar,dashnah-o-;xanjar,dashnah,;xanjar',
 'rusuum-o-quyuud,rusuum-o-quyuud,rusuum,quyuud']

In [26]:
mark_okay_lemmas(search_tokens('o'))

In [44]:
update_files()
print_stats()
update_tokens_remaining()


Currently there are  2888  out of  4101
Currently there are  2888  out of  4101

In [38]:
[x for x in tokens_remaining if not(x in search_tokens('-'))]


Out[38]:
['((ar.se',
 '((uhde',
 '((uqde',
 ':tay',
 ':zan',
 ':zann',
 ';daal',
 ';daalaa',
 ';daale;nge',
 ';daaliye',
 ';dar',
 ';daraataa',
 ';dare',
 ';dartaa',
 ';darte',
 ';dhaa;npaa',
 ';dhuu;n;de',
 ';dhuu;n;dhaa',
 ';dhuu;n;dhe',
 ';dhuu;n;dtaa',
 ';duubii',
 ';gammaazii',
 ';gamze',
 ';ganiimat',
 ';gariib',
 ';gariibaa;n',
 ';gariibii',
 ';gash',
 ';gayuur',
 ';gazaal',
 ';gazal',
 ';gunche',
 ';gurbat',
 ';ha;zar',
 ';haa))il',
 ';haajaat',
 ';haalaa;nkih',
 ';haalat',
 ';had',
 ';haif',
 ';hairaa;n',
 ';hairaanii',
 ';haj',
 ';halqe',
 ';hammaam',
 ';hamzah',
 ';haraam',
 ';harakat',
 ';haram',
 ';hasad',
 ';hashr',
 ';hasrataa',
 ';hasuud',
 ';hau.salah',
 ';hau.slah',
 ';hau.sle',
 ';havaadi;s',
 ';hayaa',
 ';hazii;n',
 ';hiile',
 ';hijr',
 ';hijraa;n',
 ';hikmat',
 ';hinaa))ii',
 ';hisaab',
 ';hujjat',
 ';hujrah',
 ';hukm',
 ';husain',
 ';huur',
 ';huure;n',
 ';saabit',
 ';saanii',
 ';sabaat',
 ';taale;nge',
 ';tapaktaa',
 ';tapaktii',
 ';tapkaa',
 ';tapkaane',
 ';tapke',
 ';te;rhaa',
 ';thaanii',
 ';thahraa',
 ';thahre;n',
 ';than;daa',
 ';tuk;raa',
 ';tuu;t',
 ';tuu;te',
 ';xa:taa',
 ';xa:tar',
 ';xaa;n',
 ';xaalii',
 ';xaam',
 ';xaamushii',
 ';xaanaqaah',
 ';xaaraa',
 ';xaashaak',
 ';xabar',
 ';xafaa',
 ';xafaa))ii',
 ';xafaqaanii',
 ';xair',
 ';xajaalat',
 ';xalal',
 ';xalq',
 ';xamyaazah',
 ';xanjar',
 ';xaraabaat',
 ';xaraabii',
 ';xastagii',
 ';xatm',
 ';xayaalii',
 ';xeme',
 ';xi.zr',
 ';xi;zr',
 ';xirad',
 ';xissat',
 ';xiyaabaa;n',
 ';xizaa;n',
 ';xudaa',
 ';xudaa))ii',
 ';xuftah',
 ';xuld',
 ';xushk',
 ';xusrau',
 ';xuu;n',
 ';xuub',
 ';xuubaa;n',
 ';xvaahish',
 ';xvaahishe;n',
 ';xvaarii',
 ';xvaastah',
 ';xvud',
 ';xvudaa',
 ';xvur',
 ';xvurshed',
 ';xvush',
 ';xvushaa',
 ';xvushii',
 ';xvushtar',
 ';zaahir',
 ';zaat',
 ';zahn',
 ';zaliil',
 ';zaraa',
 ';zarre',
 ';zikr',
 ';zillat',
 ';zimmah',
 'a((.zaa',
 'a((:zam',
 'a((maar',
 'a:tfaal',
 'a;gyaar',
 'a;hbaab',
 'a;hraam',
 'a;ndherii',
 'a;xtar',
 'aa',
 'aa))e',
 'aa))e;n',
 'aa))e;nge',
 'aa))ii',
 'aa))iine',
 'aa))ine',
 'aa))uu;n',
 'aa;nkh',
 'aa;nkhe;n',
 'aa;xir',
 'aabaadii',
 'aablah',
 'aadam',
 'aadmii',
 'aafaaq',
 'aafiriinish',
 'aag',
 'aagahii',
 'aage',
 'aahan',
 'aahe;n',
 'aaj',
 'aaluudah',
 'aan',
 'aanaa',
 'aane',
 'aap',
 'aaraam',
 'aaramiidagii',
 'aare',
 'aarzuu))e;n',
 'aas',
 'aasaa))ish',
 'aasaa;n',
 'aashiyaa;n',
 'aashiyaan',
 'aashnaa))ii',
 'aashuftagii',
 'aasmaa;n',
 'aasmaan',
 'aasmaanii',
 'aastaa;n',
 'aastii;n',
 'aataa',
 'aate',
 'aatii',
 'aatishii;n',
 'aavaaragii',
 'aavaarah',
 'aavaaz',
 'aave',
 'aave;n',
 'aave;nge',
 'aayaa',
 'aaye',
 'aazaad',
 'aazmaa))e',
 'aazmaa))ish',
 'aazmaanaa',
 'aazmaane',
 'aazurdah',
 'ab',
 'abhii',
 'abjad',
 'achchhaa',
 'achchhe',
 'adab',
 'af((ii',
 'afgaar',
 'afsaanah',
 'afshurdan',
 'afsurdah',
 'afsuus',
 'agar',
 'agarchih',
 'agle',
 'aham',
 'aisaa',
 'aise',
 'aisii',
 'ak;sar',
 'akbar',
 'alif',
 'almaas',
 'amaa;n',
 'amn',
 'anaa',
 'andaaze',
 'andar',
 'andeshe',
 'andher',
 'angez',
 'anguur',
 'apnaa',
 'apne',
 'apnii',
 'armaan',
 'armu;gaa;n',
 'arzaa;n',
 'asaamii',
 'ash((aar',
 'ashyaa',
 'asiir',
 'asiirii',
 'aur',
 'ay',
 'ayaa;g',
 'az',
 'azal',
 'ba((iid',
 'ba;gal',
 'ba;ndhaa',
 'ba;ndhe',
 'ba;rh',
 'ba;xsh',
 'ba;xshe',
 'ba;xye',
 'baa',
 'baa))i;s',
 'baa:til',
 'baa:tin',
 'baa;ndh',
 'baa;ndhaa',
 'baa;ndhe',
 'baa;ndhiye',
 'baa;ndhte',
 'baa;xtan',
 'baadshaah',
 'baag',
 'baahar',
 'baajaa',
 'baalii;n',
 'baam',
 'baanii',
 'baaqii',
 'baare',
 'baarish',
 'baat',
 'baate;n',
 'baavar',
 'baaz',
 'bache;n',
 'bachte',
 'badalne',
 'badii',
 'badlaa',
 'badle',
 'badr',
 'bah',
 'bahaa))ii',
 'bahaane',
 'bahaarii',
 'baham',
 'bahne',
 'bahraa',
 'bahtar',
 'bahut',
 'bai;th',
 'bai;thaa',
 'bai;the',
 'bai;the;n',
 'bai;thiye',
 'bai;thnaa',
 'bak',
 'bal;gamii',
 'baraa))e',
 'barastii',
 'barii;n',
 'barsaat',
 'bas',
 'bashar',
 'baskih',
 'bataa',
 'bataa))uu;n',
 'batlaa',
 'batlaa))e;n',
 'bayaa;n',
 'bayaabaa;n',
 'be',
 'bed',
 'bedard',
 'bedil',
 'bekaar',
 'beqaraarii',
 'besh',
 'betaab',
 'betaabii',
 'bevafaa',
 'bhaa))ii',
 'bhaagaa',
 'bhaage',
 'bhaage;nge',
 'bhaagne',
 'bhalaa',
 'bhale',
 'bhar',
 'bharam',
 'bhare',
 'bharne',
 'bharuu;n',
 'bhed',
 'bhes',
 'bhii',
 'bhuuke',
 'bhuul',
 'bhuulaa',
 'bhuule',
 'bichhaa))e',
 'biga;r',
 'biga;rnaa',
 'biga;rtaa',
 'bihisht',
 'biinaa',
 'biinaa))ii',
 'biinish',
 'bijlii',
 'bik',
 'bikhar',
 'bin',
 'bismil',
 'bu((d',
 'bujhaa',
 'bujhaa))e',
 'bujhte',
 'bujhtii',
 'bulaa',
 'bulaa))e',
 'bulaataa',
 'bulandii',
 'bulbule;n',
 'buraa',
 'buraa))ii',
 'burdah',
 'burii',
 'bustaanii',
 'butaa;n',
 'buu;nd',
 'buzurg',
 'cha;rh',
 'cha;rhii',
 'cha;taknaa',
 'chaah',
 'chaahaa',
 'chaahe',
 'chaahe;n',
 'chaahiye',
 'chaahne',
 'chaahtaa',
 'chaahte',
 'chaahuu;n',
 'chaal',
 'chaalaak',
 'chaar',
 'chahrah',
 'chahre',
 'chain',
 'chakiidan',
 'chakkar',
 'chal',
 'chalaa',
 'chale',
 'chale;n',
 'chalii',
 'chalne',
 'chaltaa',
 'chaltii',
 'chaman',
 'chand',
 'chande',
 'chang',
 'charchaa',
 'chhalle',
 'chhe;r',
 'chhe;re',
 'chhe;re;nge',
 'chhe;riye',
 'chhe;ruu;n',
 'chhi;rkaa',
 'chhi;rke',
 'chhi;rke;n',
 'chhide',
 'chhu;t',
 'chhu;taa',
 'chhu;tii',
 'chhupaa))e',
 'chhupaanaa',
 'chhupaane',
 'chhupnaa',
 'chhurii',
 'chhuu;taa',
 'chhuu;tuu;n',
 'chii;xuu;n',
 'chiir',
 'chiiz',
 'chipak',
 'chiraa;gaa;n',
 'chuke',
 'chukii;n',
 'chuntaa',
 'chup',
 'chupke',
 'churaanaa',
 'da((ve',
 'daa))im',
 'daab',
 'daabte',
 'daad',
 'daadah',
 'daamaa;n',
 'daaman',
 'daanaa',
 'daanah',
 'dab',
 'dabaa',
 'dabii',
 'dabistaa;n',
 'dafiinah',
 'dafn',
 'dahaa;n',
 'dahr',
 'dai',
 'dair',
 'dandaa;n',
 'dara;xshaa;n',
 'daraaz',
 'daraazii',
 'darbaa;n',
 'darbaanii',
 'dare;g',
 'dare;gaa',
 'darmaa;ndagii',
 'darmiyaa;n',
 'daruu;n',
 'darvaazah',
 'darvesh',
 'dashne',
 'dastaar',
 'dau;raa))e',
 'dau;re',
 'dau;rte',
 'davaa',
 'davaam',
 'de',
 'de;n',
 'de;nge',
 'dekh',
 'dekhaa',
 'dekhe',
 'dekhe;n',
 'dekhii',
 'dekhiye',
 'dekhnaa',
 'dekhne',
 'dekhtaa',
 'dekhte',
 'dekhuu;n',
 'denaa',
 'dene',
 'denii',
 'detaa',
 'dete',
 'dhabbe',
 'dhamkii',
 'dharaa',
 'dhuvaa;n',
 'digar',
 'dihqaa;n',
 'dii',
 'diid',
 'diigar',
 'diije',
 'diijiye',
 'diivaanah',
 'dijlah',
 'dikhaa',
 'dikhaa))e;n',
 'dikhaa))ii',
 'dikhaa))uu;ngaa',
 'dikhaataa',
 'dikhlaa',
 'dikhlaa))e;n',
 'dikhlaave',
 'dilaa',
 'dilbar',
 'dilbaraa;n',
 'dildaar',
 'dillagii',
 'dillii',
 'din',
 'diyaa',
 'diye',
 'du((aa',
 'du((aa))e;n',
 'dukh',
 'dukhte',
 'dunyaa',
 'durust',
 'dushmanii',
 'dushnaam',
 'dushvaar',
 'duu))ii',
 'duu;n',
 'duunaa',
 'duur',
 'ek',
 'faa))idah',
 'faanuus',
 'faari;g',
 'faarsii',
 'fanaa',
 'faraa;g',
 'faraa;gat',
 'faraaham',
 'farhaad',
 'farishtah',
 'farmaatii',
 'farmaave;nge',
 'farqat',
 'fasaa;n',
 'fat;h',
 'fatiilah',
 'faujdaarii',
 'fi;gaa;n',
 'fidaa',
 'figaar',
 'fitne',
 'fitraak',
 'furqat',
 'furuu((',
 'fusurdagii',
 'ga))e',
 'ga))ii',
 'ga))ii;n',
 'ga;nvaa',
 'gaaliyaa;n',
 'gadaa))ii',
 'galii',
 'gar',
 'garchih',
 'garduu;n',
 'garebaa;n',
 'garebaanii',
 'gavaaraa',
 'gayaa',
 'gaye',
 'gaz',
 'getii',
 'ghaas',
 'ghabraa',
 'ghabraa))e;n',
 'ghabraa))egaa',
 'ghabraave;nge',
 'ghar',
 'ghisegaa',
 'ghisne',
 'ghistaa',
 'ghiste',
 'giiraa))ii',
 'gilaa',
 'gilah',
 'gir',
 'giraa',
 'giraa;n',
 'giraanii',
 'girdaab',
 'girih',
 'girii',
 'girnii',
 'girtaa',
 'girye',
 'giyaah',
 'gudaa;xtah',
 'guhar',
 'gul;xan',
 'guldastah',
 'gulfaam',
 'gulistaa;n',
 'gulshan',
 'gulsitaa;n',
 'gulzaar',
 'gum',
 'gumaa;n',
 'gunaah',
 'gunaahgaar',
 'gunah',
 'gurezaa;n',
 'gustaa;x',
 'guu;n',
 'guunah',
 'guzaaraa',
 'guzar',
 'guzarnaa',
 'guzartaa',
 'guzarte',
 'guzartii',
 'guzashtah',
 'guzraa',
 'guzre',
 'guzrii',
 'ha;ns',
 'ha;nsii',
 'haa))e',
 'haa;n',
 'haath',
 'haay',
 'hadyah',
 'haft',
 'hai',
 'hai;n',
 'haihaat',
 'hajr',
 'ham',
 'hamaaraa',
 'hamaare',
 'hamaarii',
 'hamah',
 'hamdam',
 'hame;n',
 'hameshah',
 'hamvaar',
 'hangaame',
 'hanuuz',
 'har',
 'harzah',
 'hathka;n;de',
 'hay',
 'hayuul;aa',
 'hazaar',
 'hii',
 'hijraa;n',
 'hilaal',
 'hilte',
 'hinduustaan',
 'hu))aa',
 'hu))e',
 'hu))ii',
 'hu;n',
 'humaa',
 'hunar',
 'hushyaar',
 'huu;n',
 'huujiye',
 'i((tidaal',
 'i((tiqaad',
 'i:zhaar',
 'i;hsaa;n',
 'i;sbaat',
 'i;xtiyaar',
 'ibraam',
 'idhar',
 'ihtizaaz',
 'ii;n',
 'iijaad',
 'iimaa;n',
 'iimaan',
 'ijaabat',
 'ijaaraa',
 'ik',
 'ikraam',
 'il;aahii',
 'iltihaab',
 'iltijaa',
 'imkaa;n',
 'imti;haa;n',
 'in',
 'in.saaf',
 'infa((aal',
 'infi((aal',
 'inkaar',
 'insaa;n',
 'insaan',
 'inti.zaar',
 'inti:zaam',
 'inti;xaab',
 'intiqaam',
 'iqaamat',
 'iram',
 'is',
 'ishaaraa',
 'ishaarah',
 'ishaarat',
 'ishaare',
 'itnaa',
 'itne',
 'itnii',
 'itraa))e',
 'itraataa',
 'ittifaaqii',
 'jaa))e',
 'jaa))e;n',
 'jaa))e;nge',
 'jaa))egaa',
 'jaa))egii',
 'jaa))iye',
 'jaa))uu;n',
 'jaa;n',
 'jaage',
 'jaanaa',
 'jaanaa;n',
 'jaane',
 'jaane;n',
 'jaanegaa',
 'jaaniye',
 'jaantaa',
 'jaante',
 'jaanuu;n',
 'jaarii',
 'jaataa',
 'jaate',
 'jaatii',
 'jaave',
 'jaave;n',
 'jaave;nge',
 'jaaved',
 'jaavidaa;n',
 'jab',
 'jabii;n',
 'jafaa',
 'jafaa))e;n',
 'jagah',
 'jahaa;n',
 'jaise',
 'jal',
 'jalaa',
 'jalaane',
 'jale',
 'jalii',
 'jallaad',
 'jaltaa',
 'jalte',
 'jaltii',
 'jalve',
 'jam',
 'jam((a',
 'jamshed',
 'janaab',
 'janaazah',
 'janaaze',
 'jangal',
 'jastah',
 'jaulaa;n',
 'jaur',
 'javaa;n',
 'javaab',
 'javaanii',
 'javvaalah',
 'jazaa',
 'jhaa;rii',
 'jhaga;rte',
 'jhukaa',
 'jhukne',
 'jhuu;t',
 'jihat',
 'jii',
 'jiine',
 'jiitaa',
 'jiite',
 'jin',
 'jinnat',
 'jis',
 'jise',
 'jism',
 'jitnaa',
 'jitne',
 'jitnii',
 'jiye',
 'judaa',
 'judaa))ii',
 'junuu;n',
 'jurm',
 'juz',
 'ka((bah',
 'ka((be',
 'ka))ii',
 'ka;rii',
 'ka;t',
 'ka;te',
 'ka;tne',
 'ka;ttii',
 'kaa',
 'kaa))ii',
 'kaa))inaat',
 'kaa;ga;zii',
 'kaa;n',
 'kaa;te',
 'kaafar',
 'kaafii',
 'kaafir',
 'kaamyaab',
 'kaan',
 'kaar',
 'kaarii',
 'kaash',
 'kaashaane',
 'kab',
 'kabhii',
 'kafan',
 'kah',
 'kahaa',
 'kahaa;n',
 'kahaanii',
 'kahe',
 'kahe;n',
 'kahe;nge',
 'kahii;n',
 'kahiye',
 'kahnaa',
 'kahne',
 'kahtaa',
 'kahte',
 'kahtii',
 'kahuu;n',
 'kahve',
 'kahve;n',
 'kahye',
 'kaimuus',
 'kaisaa',
 'kaise',
 'kaisii',
 'kal',
 'kalaam',
 'kalejaa',
 'kaliisaa',
 'kam',
 'kam;xvaab',
 'kamaa;n',
 'kamaan',
 'kamar',
 'kamii;n',
 'kan((aa;n',
 'kandhaa',
 'kap;re',
 'kar',
 'karam',
 'kardah',
 'kare',
 'kare;n',
 'kare;nge',
 'karishmah',
 'karnaa',
 'karne',
 'kartaa',
 'karte',
 'kartii',
 'karuu;n',
 'karuu;ngaa',
 'kas',
 'kau;sar',
 'kaun',
 'ke',
 'kesh',
 'kha;re',
 'kha;tkaa',
 'kha;tke',
 'khaa',
 'khaa))e',
 'khaa))e;n',
 'khaa))ii',
 'khaa))iye',
 'khaa))uu;n',
 'khaanaa',
 'khaane',
 'khaate',
 'khaave;nge',
 'khaayaa',
 'khai;nche',
 'khai;nchtaa',
 'khapaataa',
 'khare',
 'khe;nch',
 'khe;nchaa',
 'khe;nche',
 'khe;nchii',
 'khe;nchiye',
 'khe;nchtaa',
 'khe;nchuu;n',
 'khe;nchuu;ngaa',
 'khel',
 'khet',
 'khi;nch',
 'khi;nchtaa',
 'khil',
 'khilne',
 'khujaataa',
 'khul',
 'khulaa',
 'khule',
 'khulegaa',
 'khulii',
 'khulnaa',
 'khulne',
 'khultaa',
 'ki',
 'kidhar',
 'kih',
 'kii',
 'kiije',
 'kiijiye',
 'kinaarah',
 'kinaare',
 'kirishmah',
 'kis',
 'kise',
 'kisii',
 'kisliye',
 'kitnaa',
 'kitne',
 'kiyaa',
 'kiye',
 'kuchh',
 'kufr',
 'kuhan',
 'kujaa',
 'kul',
 'kulah',
 'kunisht',
 'kuredte',
 'kushaadah',
 'kushaayish',
 'kushuudah',
 'kuuche',
 'kuudakii',
 'kyaa',
 'kyuu;n',
 'kyuu;nkar',
 'kyuu;nkih',
 'la))iim',
 'la:taafat',
 'la;h:zah',
 'la;r',
 'la;raa))ii',
 'la;rakpan',
 'la;riye',
 'la;rtaa',
 'la;rte',
 'laa',
 'laa))e',
 'laa))ii',
 'laa))uu;n',
 'laa;gar',
 'laag',
 ...]

In [43]:
[x for x in tokens_remaining if x[-2:]==';n' and x[:-1]+'n' in tokens_remaining]


Out[43]:
[';gariibaa;n',
 ';gazal-;xvaa;n',
 ';hairaa;n',
 ';hazii;n',
 ';hijraa;n',
 ';huure;n',
 ';thahre;n',
 ';xaa;n',
 ';xaan-maa;n',
 ';xastah-jaa;n',
 ';xiyaabaa;n',
 ';xizaa;n',
 ';xuu;n',
 ';xuu;n-chakaa;n',
 ';xuu;n-fishaa;n',
 ';xuu;n-naabah-fishaa;n',
 ';xuubaa;n',
 ';xvaahishe;n',
 'aa))e;n',
 'aa))uu;n',
 'aa;nkhe;n',
 'aa;zar-fishaa;n',
 'aahe;n',
 'aarzuu))e;n',
 'aasaa;n',
 'aashiyaa;n',
 'aasmaa;n',
 'aastaa;n',
 'aastii;n',
 'aatishii;n',
 'aave;n',
 'al-amaa;n',
 'amaa;n',
 'armu;gaa;n',
 'arzaa;n',
 'baalii;n',
 'baate;n',
 'bache;n',
 'bai;the;n',
 'barii;n',
 'bataa))uu;n',
 'batlaa))e;n',
 'bayaa;n',
 'bayaabaa;n',
 'bazm-aaraa))iyaa;n',
 'be-;hijaabiyaa;n',
 'be-karaa;n',
 'be-zabaa;n',
 'bharuu;n',
 'bulbule;n',
 'butaa;n',
 'chaahe;n',
 'chaahuu;n',
 'chale;n',
 'chhe;ruu;n',
 'chhi;rke;n',
 'chhuu;tuu;n',
 'chii;xuu;n',
 'chiraa;gaa;n',
 'chukii;n',
 'daa;g-saamaa;n',
 'daamaa;n',
 'dabistaa;n',
 'dahaa;n',
 'dandaa;n',
 'dar-tishnagii-murdagaa;n',
 'dara;xshaa;n',
 'darbaa;n',
 'darmiyaa;n',
 'daruu;n',
 'dast-gardaa;n',
 'de;n',
 'dekhe;n',
 'dekhuu;n',
 'dhuvaa;n',
 'dihqaa;n',
 'dikhaa))e;n',
 'dikhlaa))e;n',
 'dil-aashuftagaa;n',
 'dil-aazurdagaa;n',
 'dil-sitaa;n',
 'dilbaraa;n',
 'du((aa))e;n',
 'duu;n',
 'fasaa;n',
 'fi;gaa;n',
 'ga))ii;n',
 'gaaliyaa;n',
 'garduu;n',
 'garebaa;n',
 'ghabraa))e;n',
 'giraa;n',
 'giraa;n-nishii;n',
 'gul-chii;n',
 'gulistaa;n',
 'gulsitaa;n',
 'gumaa;n',
 'gurezaa;n',
 'guu;n',
 'haa;n',
 'hai;n',
 'ham-nishii;n',
 'ham-rahaa;n',
 'ham-zabaa;n',
 'hame;n',
 'hijraa;n',
 'hu;n',
 'huu;n',
 'i;hsaa;n',
 'ii;n',
 'iimaa;n',
 'imkaa;n',
 'imti;haa;n',
 'insaa;n',
 'jaa))e;n',
 'jaa))uu;n',
 'jaa;n',
 'jaa;n-sitaa;n',
 'jaanaa;n',
 'jaane;n',
 'jaanuu;n',
 'jaave;n',
 'jaavidaa;n',
 'jabii;n',
 'jafaa))e;n',
 'jahaa;n',
 'jaulaa;n',
 'javaa;n',
 'junuu;n',
 'junuu;n-jaulaa;n',
 'kaa;n',
 'kahaa;n',
 'kahe;n',
 'kahii;n',
 'kahuu;n',
 'kahve;n',
 'kamaa;n',
 'kamii;n',
 'kan((aa;n',
 'kare;n',
 'karuu;n',
 'khaa))e;n',
 'khaa))uu;n',
 'khe;nchuu;n',
 'kyuu;n',
 'laa))uu;n',
 'lakiire;n',
 'le;n',
 'likhuu;n',
 'luu;n',
 'ma.zaamii;n',
 'ma.zmuu;n',
 'ma;hfile;n',
 'maanuu;n',
 'mai-parastaa;n',
 'mai;n',
 'majnuu;n',
 'makaa;n',
 'makii;n',
 'marjaa;n',
 'me;n',
 'mihmaa;n',
 'mihr-baa;n',
 'mihrbaa;n',
 'mile;n',
 'millate;n',
 'mizhgaa;n',
 'muflisaa;n',
 'musalmaa;n',
 'mushkii;n',
 'mushkile;n',
 'naa-daa;n',
 'naa-mihrbaa;n',
 'naadaa;n',
 'naagahaa;n',
 'naalaa;n',
 'naazaa;n',
 'nahii;n',
 'naisitaa;n',
 'nakiire;n',
 'namak-daa;n',
 'nau;hah-;xvaa;n',
 'nayastaa;n',
 'nigaahe;n',
 'nihaa;n',
 'niim-jaa;n',
 'nishaa;n',
 'nisyaa;n',
 'nuktah-chii;n',
 'nuktah-daa;n',
 'numaayaa;n',
 'nuq.saa;n',
 'nuqsaa;n',
 'pa;rii;n',
 'pa;ruu;n',
 'paa))e;n',
 'paa))uu;n',
 'paas-baa;n',
 'paasbaa;n',
 'pahu;nchaa))e;n',
 'paikaa;n',
 'par-afshaa;n',
 'pareshaa;n',
 'pareshaaniyaa;n',
 'parniyaa;n',
 'pashemaa;n',
 'phire;n',
 'phiruu;n',
 'pii;tuu;n',
 'pinhaa;n',
 'piyuu;n',
 'punbah-aagii;n',
 'pur-;xuu;n',
 'puuchhe;n',
 'puuchhuu;n',
 'raate;n',
 'raaz-daa;n',
 'rahe;n',
 'rahuu;n',
 'rakhuu;n',
 'rangii;n',
 'ranjishe;n',
 'ri.zvaa;n',
 'rindaa;n',
 'saamaa;n',
 'sakuu;n',
 'samjhe;n',
 'samjhuu;n',
 'sangii;n',
 'sar-giraa;n',
 'sar-mastiyaa;n',
 'sar-niguu;n',
 'shabistaa;n',
 'shabnam-istaa;n',
 'shahiidaa;n',
 'sham((e;n',
 'shiirii;n',
 'sitam-zadagaa;n',
 'sul:taa;n',
 'sulaimaa;n',
 'sunaa))uu;n',
 'tamkii;n',
 'taskii;n',
 'thii;n',
 'tuhmate;n',
 'tumhe;n',
 'tumhii;n',
 'u;ngliyaa;n',
 'u;nhe;n',
 'ubhrii;n',
 'vaa-maa;ndagiyaa;n',
 'vaa;n',
 'vaazh-guu;n',
 'vafaa-;xvurdagaa;n',
 'vahaa;n',
 'viiraa;n',
 'yaa;n',
 'yahaa;n',
 'yak-af;gaa;n',
 'yak-bayaabaa;n',
 'yak-jahaa;n',
 'yaqii;n',
 'yuu;n',
 'zabuu;n',
 'zamaa;n',
 'zamii;n',
 'zindaa;n',
 'ziyaa;n',
 'zulfe;n',
 'zuud-pashemaa;n']

In [92]:
mark_okay_lemmas(ends_with('-e'))

In [93]:
print_stats()


Currently there are  2167  out of  4101

In [94]:
update_files()


Currently there are  2167  out of  4101

In [110]:
ends_with('ah')


Out[110]:
[';gam-kadah',
 ';hamzah',
 ';hasrat-zadah',
 ';hau.salah',
 ';hau.slah',
 ';hujrah',
 ';xaanaqaah',
 ';xamyaazah',
 ';xuftah',
 ';xum-kadah',
 ';xuu;n-gashtah',
 ';xuu;n-naabah',
 ';xvaastah',
 ';zimmah',
 'aab-giinah',
 'aablah',
 'aaluudah',
 'aatish-diidah',
 'aatish-kadah',
 'aatish-zadah',
 'aavaarah',
 'aazurdah',
 'afsaanah',
 'afsurdah',
 'al-l;aah',
 'asad-ul-l;aah',
 'az-dast-raftah',
 'baadshaah',
 'bad-;xvaah',
 'bah',
 'bah-;zarrah',
 'barjaa-maa;ndah',
 'be-.sarfah',
 'be-bahrah',
 'be-darvaazah',
 'be-girah',
 'be-gunah',
 'be-panaah',
 'be-pardah',
 'be-shiiraazah',
 'burdah',
 'but-;xaanah',
 'chaah',
 'chahrah',
 'daad-;xvaah',
 'daadah',
 'daam-gaah',
 'daanah',
 'dafiinah',
 'dar-pardah',
 'darvaazah',
 'diivaanah',
 'dijlah',
 'faa))idah',
 'farishtah',
 'fatiilah',
 'gilah',
 'giraa;n-maayah',
 'giyaah',
 'gudaa;xtah',
 'guldastah',
 'gum-gashtah',
 'gunaah',
 'gunah',
 'guunah',
 'guzashtah',
 'hadyah',
 'ham-saayah',
 'hamah',
 'hameshah',
 'harzah',
 'havaa-;xvaah',
 'ishaarah',
 'jagah',
 'jalvah-gaah',
 'janaazah',
 'jastah',
 'javvaalah',
 'ka((bah',
 'kah',
 'kardah',
 'karishmah',
 'kinaarah',
 'kirishmah',
 'kulah',
 'kushaadah',
 'kushuudah',
 'la;h:zah',
 'laalah',
 'maatam-;xaanah',
 'madrasah',
 'mar;siyah',
 'mardaanah',
 'martabah',
 'mastaanah',
 'mazah',
 'mu((aamalah',
 'mu((aamilah',
 'muqaddamah',
 'murdah',
 'naa-kardah',
 'naa-shiguftah',
 'naafah',
 'nabard-peshah',
 'nah',
 'naqshah',
 'niim-;gamzah',
 'paashnah',
 'pah',
 'paivastah',
 'parii-chahrah',
 'parvaanah',
 'piyaalah',
 'pur-((arbadah',
 'qi.s.sah',
 'ra;xshindah',
 're;xtah',
 'rindaanah',
 'ruu-siyaah',
 'saadah',
 'safiinah',
 'saiyaarah',
 'sang-aamadah',
 'shaahinshaah',
 'shabaanah',
 'shafaq-aaluudah',
 'shah',
 'shiguftah',
 'shikastah',
 'sirishk-aaluudah',
 'sitam-zadah',
 'siyaah',
 'siyah',
 'sufrah',
 'sulaimaa;n-jaah',
 'taubah',
 'tu;hfah',
 'uftaadah',
 'va;hshat-kadah',
 'vaa-gardiidah',
 'vaa-rastah',
 'vaah',
 'vaaqi((ah',
 'vagarnah',
 'varnah',
 'yagaanah',
 'zavaal-aamaadah',
 'zindaa;n-;xaanah',
 'zindah',
 'ziyaadah',
 'ziyaarat-kadah']

In [4]:
len(token_search('^be-'))


Out[4]:
53

In [8]:
update_files()


WARNING:  nigaah  found in okay_lemmas. Will override.
Currently there are  2655  out of  4101

In [10]:
ends_with('q')


Out[10]:
[';xalq',
 'aafaaq',
 'be-((ishq',
 'ma:tlaq',
 'naa-;haq',
 'nu:tq',
 'shafaq',
 'shaq',
 'taufiiq',
 'varaq']

In [47]:
#mark_okay_lemmas(ends_with('q'))
update_tokens_remaining()
update_files()
print_stats()


Currently there are  2936  out of  4101
Currently there are  2936  out of  4101

In [15]:
tokenize_re = re.compile(r"\-\-\-\-|\(\-e\)|\;rh|chh|\-o\-|\;dh|\;th|\;aa|aa|ch|\:z|\)\)|gh|\-e|th|ph|\:n|dh|\(\(|\:t|uu|\.z|au|\;s|\;r|zh|\;t|ai|\;z|\;x|ii|\;d|\;h|\;n|\-\-|bh|jh|\.s|kh|sh|\;g|\ |\(|\,|\:|b|d|f|h|j|l|n|p|r|t|v|z|\!|\'|\)|\-|\;|\?|\[|\]|a|e|g|i|k|m|o|q|s|u|y|.",
re.DOTALL)
def tokenize(s):
    return tokenize_re.findall(s)
tokenize('shaan')


Out[15]:
['sh', 'aa', 'n']

In [16]:
left_as_tokens = [tokenize(s) for s in tokens_remaining]

In [25]:
[x for x in left_as_tokens if not x in  [t for t in left_as_tokens if len(t)>2 and t[-2]=='t' and t[-1] in ['aa','e','ii']]]


Out[25]:
[['((', 'a', 'r', '.s', 'e'],
 ['((', 'u', 'h', 'd', 'e'],
 ['((', 'u', 'q', 'd', 'e'],
 [':t', 'a', 'y'],
 [':z', 'a', 'n'],
 [':z', 'a', 'n', 'n'],
 [':z', 'u', 'l', 'm', 'a', 't', '-', 'k', 'a', 'd', 'e'],
 [';d', 'aa', 'l'],
 [';d', 'aa', 'l', 'aa'],
 [';d', 'aa', 'l', 'e', ';n', 'g', 'e'],
 [';d', 'aa', 'l', 'i', 'y', 'e'],
 [';d', 'a', 'r'],
 [';d', 'a', 'r', 'e'],
 [';dh', 'aa', ';n', 'p', 'aa'],
 [';dh', 'uu', ';n', ';d', 'e'],
 [';dh', 'uu', ';n', ';dh', 'aa'],
 [';dh', 'uu', ';n', ';dh', 'e'],
 [';d', 'uu', 'b', 'ii'],
 [';g', 'a', 'm', '-', ';x', 'aa', 'n', 'e'],
 [';g', 'a', 'm', '-', ';x', 'v', 'aa', 'r', 'a', 'g', 'ii'],
 [';g', 'a', 'm', '-', ';x', 'v', 'aa', 'r', 'ii'],
 [';g', 'a', 'm', '-', 'g', 'u', 's', 'aa', 'r'],
 [';g', 'a', 'm', '-', 'g', 'u', 's', 'aa', 'r', 'ii'],
 [';g', 'a', 'm', '-', 'k', 'a', 'd', 'a', 'h'],
 [';g', 'a', 'm', '-', 'n', 'aa', 'k'],
 [';g', 'a', 'm', 'm', 'aa', 'z', 'ii'],
 [';g', 'a', 'm', 'z', 'e'],
 [';g', 'a', 'n', 'ii', 'm', 'a', 't'],
 [';g', 'a', 'r', 'ii', 'b'],
 [';g', 'a', 'r', 'ii', 'b', '-', 'n', 'a', 'v', 'aa', 'z'],
 [';g', 'a', 'r', 'ii', 'b', 'aa', ';n'],
 [';g', 'a', 'r', 'ii', 'b', 'ii'],
 [';g', 'a', 'sh'],
 [';g', 'a', 'y', 'uu', 'r'],
 [';g', 'a', 'z', 'aa', 'l'],
 [';g', 'a', 'z', 'a', 'l'],
 [';g', 'a', 'z', 'a', 'l', '-', ';x', 'v', 'aa', ';n'],
 [';g', 'a', 'z', 'a', 'l', '-', ';x', 'v', 'aa', 'n', 'ii'],
 [';g', 'a', 'z', 'a', 'l', '-', 's', 'a', 'r', 'aa'],
 [';g', 'u', 'n', 'ch', 'e'],
 [';g', 'u', 'r', 'b', 'a', 't'],
 [';h', 'a', ';z', 'a', 'r'],
 [';h', 'aa', '))', 'i', 'l'],
 [';h', 'aa', 'j', 'aa', 't'],
 [';h', 'aa', 'j', 'a', 't', '-', 'm', 'a', 'n', 'd'],
 [';h', 'aa', 'l', 'aa', ';n', 'k', 'i', 'h'],
 [';h', 'aa', 'l', 'a', 't'],
 [';h', 'a', 'd'],
 [';h', 'ai', 'f'],
 [';h', 'ai', 'r', 'aa', ';n'],
 [';h', 'ai', 'r', 'aa', 'n', 'ii'],
 [';h', 'a', 'j'],
 [';h', 'a', 'l', 'q', 'e'],
 [';h', 'a', 'm', 'm', 'aa', 'm'],
 [';h', 'a', 'm', 'z', 'a', 'h'],
 [';h', 'a', 'q', '-', 'sh', 'i', 'n', 'aa', 's'],
 [';h', 'a', 'r', 'aa', 'm'],
 [';h', 'a', 'r', 'a', 'k', 'a', 't'],
 [';h', 'a', 'r', 'a', 'm'],
 [';h', 'a', 's', 'a', 'd'],
 [';h', 'a', 'sh', 'r'],
 [';h', 'a', 's', 'r', 'a', 't', '-', 's', 'a', 'n', 'j'],
 [';h', 'a', 's', 'r', 'a', 't', '-', 'z', 'a', 'd', 'a', 'h'],
 [';h', 'a', 's', 'uu', 'd'],
 [';h', 'au', '.s', 'a', 'l', 'a', 'h'],
 [';h', 'au', '.s', 'l', 'a', 'h'],
 [';h', 'au', '.s', 'l', 'e'],
 [';h', 'a', 'v', 'aa', 'd', 'i', ';s'],
 [';h', 'a', 'y', 'aa'],
 [';h', 'a', 'z', 'ii', ';n'],
 [';h', 'ii', 'l', 'e'],
 [';h', 'i', 'j', 'r'],
 [';h', 'i', 'j', 'r', 'aa', ';n'],
 [';h', 'i', 'k', 'm', 'a', 't'],
 [';h', 'i', 'n', 'aa', '))', 'ii'],
 [';h', 'i', 's', 'aa', 'b'],
 [';h', 'u', 'j', 'j', 'a', 't'],
 [';h', 'u', 'j', 'r', 'a', 'h'],
 [';h', 'u', 'k', 'm'],
 [';h', 'u', 's', 'ai', 'n'],
 [';h', 'uu', 'r'],
 [';h', 'uu', 'r', 'e', ';n'],
 [';s', 'aa', 'b', 'i', 't'],
 [';s', 'aa', 'n', 'ii'],
 [';s', 'a', 'b', 'aa', 't'],
 [';t', 'aa', 'l', 'e', ';n', 'g', 'e'],
 [';t', 'a', 'p', 'k', 'aa'],
 [';t', 'a', 'p', 'k', 'aa', 'n', 'e'],
 [';t', 'a', 'p', 'k', 'e'],
 [';t', 'e', ';rh', 'aa'],
 [';th', 'aa', 'n', 'ii'],
 [';th', 'a', 'h', 'r', 'aa'],
 [';th', 'a', 'h', 'r', 'e', ';n'],
 [';th', 'a', 'n', ';d', 'aa'],
 [';t', 'u', 'k', ';r', 'aa'],
 [';t', 'uu', ';t'],
 [';t', 'uu', ';t', 'e'],
 [';x', 'a', ':t', 'aa'],
 [';x', 'a', ':t', 'a', 'r'],
 [';x', 'aa', ';n'],
 [';x', 'aa', 'k', '-', 'a', 'n', 'd', 'aa', 'z'],
 [';x',
  'aa',
  'k',
  'i',
  's',
  't',
  'a',
  'r',
  '-',
  'n',
  'i',
  'sh',
  'ii',
  'n',
  'ii'],
 [';x', 'aa', 'l', 'ii'],
 [';x', 'aa', 'm'],
 [';x', 'aa', 'm', 'a', 'h', '-', 'f', 'a', 'r', 's', 'aa'],
 [';x', 'aa', 'm', 'u', 'sh', 'ii'],
 [';x', 'aa', 'n', '-', 'm', 'aa', ';n'],
 [';x', 'aa', 'n', '-', 'm', 'aa', ';n', '-', ';x', 'a', 'r', 'aa', 'b'],
 [';x', 'aa', 'n', 'a', 'h', '-', ';x', 'a', 'r', 'aa', 'b', 'ii'],
 [';x', 'aa', 'n', 'a', 'h', '-', 'aa', 'r', 'aa', '))', 'ii'],
 [';x',
  'aa',
  'n',
  'a',
  'h',
  '-',
  'v',
  'ii',
  'r',
  'aa',
  ';n',
  '-',
  's',
  'aa',
  'z'],
 [';x', 'aa', 'n', 'a', 'h', '-', 'v', 'ii', 'r', 'aa', 'n', 'ii'],
 [';x', 'aa', 'n', 'a', 'q', 'aa', 'h'],
 [';x', 'aa', 'r', 'aa'],
 [';x', 'aa', 'sh', 'aa', 'k'],
 [';x', 'a', 'b', 'a', 'r'],
 [';x', 'a', 'f', 'aa'],
 [';x', 'a', 'f', 'aa', '))', 'ii'],
 [';x', 'a', 'f', 'a', 'q', 'aa', 'n', 'ii'],
 [';x', 'ai', 'r'],
 [';x', 'ai', 'r', '-', 'b', 'aa', 'd'],
 [';x', 'a', 'j', 'aa', 'l', 'a', 't'],
 [';x', 'a', 'l', 'a', 'l'],
 [';x', 'a', 'l', 'q'],
 [';x', 'a', 'm', 'y', 'aa', 'z', 'a', 'h'],
 [';x', 'a', 'n', 'j', 'a', 'r'],
 [';x', 'a', 'n', 'j', 'a', 'r', '-', 'aa', 'z', 'm', 'aa'],
 [';x', 'a', 'r', 'aa', 'b', 'aa', 't'],
 [';x', 'a', 'r', 'aa', 'b', 'ii'],
 [';x', 'a', 's', 't', 'a', 'g', 'ii'],
 [';x', 'a', 's', 't', 'a', 'h', '-', 'j', 'aa', ';n'],
 [';x', 'a', 's', 't', 'a', 'h', '-', 't', 'a', 'n'],
 [';x', 'a', 't', 'm'],
 [';x', 'a', 'y', 'aa', 'l', 'ii'],
 [';x', 'e', 'm', 'e'],
 [';x', 'i', '.z', 'r'],
 [';x', 'i', ';z', 'r'],
 [';x', 'i', 'r', 'a', 'd'],
 [';x', 'i', 's', 's', 'a', 't'],
 [';x', 'i', 'y', 'aa', 'b', 'aa', ';n'],
 [';x', 'i', 'z', 'aa', ';n'],
 [';x', 'u', 'd', 'aa'],
 [';x', 'u', 'd', 'aa', '))', 'ii'],
 [';x', 'u', 'd', 'aa', '-', 'p', 'a', 'r', 'a', 's', 't'],
 [';x', 'u', 'd', 'aa', '-', 's', 'aa', 'z'],
 [';x', 'u', 'f', 't', 'a', 'h'],
 [';x', 'u', 'l', 'd'],
 [';x', 'u', 'm', '-', 'k', 'a', 'd', 'a', 'h'],
 [';x', 'u', 'sh', 'k'],
 [';x', 'u', 's', 'r', 'au'],
 [';x', 'uu', '-', 'g', 'a', 'r'],
 [';x', 'uu', ';n'],
 [';x', 'uu', ';n', '-', 'b', 'a', 'h', 'aa'],
 [';x', 'uu', ';n', '-', 'ch', 'a', 'k', 'aa', ';n'],
 [';x', 'uu', ';n', '-', 'f', 'i', 'sh', 'aa', ';n'],
 [';x', 'uu', ';n', '-', 'g', 'a', 'sh', 't', 'a', 'h'],
 [';x', 'uu', ';n', '-', 'n', 'aa', 'b'],
 [';x', 'uu', ';n', '-', 'n', 'aa', 'b', 'a', 'h'],
 [';x',
  'uu',
  ';n',
  '-',
  'n',
  'aa',
  'b',
  'a',
  'h',
  '-',
  'f',
  'i',
  'sh',
  'aa',
  ';n'],
 [';x',
  'uu',
  ';n',
  '-',
  'n',
  'aa',
  'b',
  'a',
  'h',
  '-',
  'f',
  'i',
  'sh',
  'aa',
  'n',
  'ii'],
 [';x',
  'uu',
  ';n',
  '-',
  'n',
  'aa',
  'b',
  'a',
  'h',
  '-',
  'm',
  'a',
  'sh',
  'r',
  'a',
  'b'],
 [';x', 'uu', ';n', '-', 'r', 'e', 'z'],
 [';x', 'uu', 'b'],
 [';x', 'uu', 'b', 'aa', ';n'],
 [';x', 'v', 'aa', 'b', '-', 'n', 'aa', 'k'],
 [';x', 'v', 'aa', 'h', 'i', 'sh'],
 [';x', 'v', 'aa', 'h', 'i', 'sh', 'e', ';n'],
 [';x', 'v', 'aa', 'r', 'ii'],
 [';x', 'v', 'aa', 's', 't', 'a', 'h'],
 [';x', 'v', 'u', 'd'],
 [';x', 'v', 'u', 'd', '-', 'aa', 'r', 'aa'],
 [';x', 'v', 'u', 'd', '-', 'aa', 'r', 'aa', '))', 'ii'],
 [';x', 'v', 'u', 'd', 'aa'],
 [';x', 'v', 'u', 'r'],
 [';x', 'v', 'u', 'r', 'sh', 'e', 'd'],
 [';x', 'v', 'u', 'r', 'sh', 'ii', 'd', '-', 'j', 'a', 'm', 'aa', 'l'],
 [';x', 'v', 'u', 'sh'],
 [';x', 'v', 'u', 'sh', '-', ';h', 'aa', 'l'],
 [';x', 'v', 'u', 'sh', 'aa'],
 [';x', 'v', 'u', 'sh', 'ii'],
 [';x', 'v', 'u', 'sh', 't', 'a', 'r'],
 [';z', 'aa', 'h', 'i', 'r'],
 [';z', 'aa', 't'],
 [';z', 'a', 'h', 'n'],
 [';z', 'a', 'l', 'ii', 'l'],
 [';z', 'a', 'r', 'aa'],
 [';z', 'a', 'r', 'r', 'e'],
 [';z', 'au', 'q', '-', 'f', 'i', 'z', 'aa'],
 [';z', 'i', 'k', 'r'],
 [';z', 'i', 'l', 'l', 'a', 't'],
 [';z', 'i', 'm', 'm', 'a', 'h'],
 ['a', '((', '.z', 'aa'],
 ['a', '((', ':z', 'a', 'm'],
 ['a', '((', 'm', 'aa', 'r'],
 ['a', ':t', 'f', 'aa', 'l'],
 ['a', ';g', 'y', 'aa', 'r'],
 ['a', ';h', 'b', 'aa', 'b'],
 ['a', ';h', 'r', 'aa', 'm'],
 ['a', ';n', 'dh', 'e', 'r', 'ii'],
 ['a', ';x', 't', 'a', 'r'],
 ['a', ';x', 't', 'a', 'r', '-', 'sh', 'u', 'm', 'aa', 'r', 'ii'],
 ['aa'],
 ['aa', '))', 'e'],
 ['aa', '))', 'e', ';n'],
 ['aa', '))', 'e', ';n', 'g', 'e'],
 ['aa', '))', 'ii'],
 ['aa', '))', 'ii', 'n', 'a', 'h', '-', ';x', 'aa', 'n', 'e'],
 ['aa', '))', 'ii', 'n', 'a', 'h', '-', 'd', 'aa', 'r', 'ii'],
 ['aa', '))', 'ii', 'n', 'e'],
 ['aa', '))', 'i', 'n', 'a', 'h', '-', ';x', 'aa', 'n', 'e'],
 ['aa', '))', 'i', 'n', 'a', 'h', '-', 'd', 'aa', 'r'],
 ['aa', '))', 'i', 'n', 'a', 'h', '-', 'p', 'a', 'r', 'd', 'aa', 'z'],
 ['aa', '))', 'i', 'n', 'a', 'h', '-', 's', 'ii', 'm', 'aa'],
 ['aa', '))', 'i', 'n', 'e'],
 ['aa', '))', 'uu', ';n'],
 ['aa', ';n', 'kh'],
 ['aa', ';n', 'kh', 'e', ';n'],
 ['aa', ';x', 'i', 'r'],
 ['aa', ';z', 'a', 'r', '-', 'f', 'i', 'sh', 'aa', ';n'],
 ['aa', 'b', '-', 'd', 'aa', 'r'],
 ['aa', 'b', '-', 'g', 'ii', 'n', 'a', 'h'],
 ['aa', 'b', 'aa', 'd', 'ii'],
 ['aa', 'b', 'i', 'l', 'a', 'h', '-', 'p', 'aa'],
 ['aa', 'b', 'l', 'a', 'h'],
 ['aa', 'd', 'a', 'm'],
 ['aa', 'd', 'm', 'ii'],
 ['aa', 'f', 'aa', 'q'],
 ['aa', 'f', 'i', 'r', 'ii', 'n', 'i', 'sh'],
 ['aa', 'f', 't', 'aa', 'b', '-', 'p', 'a', 'r', 'a', 's', 't'],
 ['aa', 'g'],
 ['aa', 'g', 'a', 'h', 'ii'],
 ['aa', 'g', 'e'],
 ['aa', 'h', 'a', 'n'],
 ['aa', 'h', 'e', ';n'],
 ['aa', 'j'],
 ['aa', 'l', 'uu', 'd', 'a', 'h'],
 ['aa', 'n'],
 ['aa', 'n', 'aa'],
 ['aa', 'n', 'e'],
 ['aa', 'p'],
 ['aa', 'r', 'aa', 'm'],
 ['aa', 'r', 'a', 'm', 'ii', 'd', 'a', 'g', 'ii'],
 ['aa', 'r', 'e'],
 ['aa', 'r', 'z', 'uu', '))', 'e', ';n'],
 ['aa', 'r', 'z', 'uu', '-', ';x', 'i', 'r', 'aa', 'm', 'ii'],
 ['aa', 's'],
 ['aa', 's', 'aa', '))', 'i', 'sh'],
 ['aa', 's', 'aa', ';n'],
 ['aa', 'sh', 'i', 'y', 'aa', ';n'],
 ['aa', 'sh', 'i', 'y', 'aa', 'n'],
 ['aa', 'sh', 'n', 'aa', '))', 'ii'],
 ['aa', 'sh', 'u', 'f', 't', 'a', 'g', 'ii'],
 ['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 'b', 'a', 'y', 'aa', 'n', 'ii'],
 ['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 'n', 'a', 'v', 'aa'],
 ['aa', 'sh', 'u', 'f', 't', 'a', 'h', '-', 's', 'a', 'r'],
 ['aa', 's', 'm', 'aa', ';n'],
 ['aa', 's', 'm', 'aa', 'n'],
 ['aa', 's', 'm', 'aa', 'n', 'ii'],
 ['aa', 's', 't', 'aa', ';n'],
 ['aa', 's', 't', 'ii', ';n'],
 ['aa', 't', 'i', 'sh', '-', 'a', 'f', 'sh', 'aa', 'n', 'ii'],
 ['aa', 't', 'i', 'sh', '-', 'b', 'aa', 'r'],
 ['aa', 't', 'i', 'sh', '-', 'd', 'ii', 'd', 'a', 'h'],
 ['aa', 't', 'i', 'sh', '-', 'k', 'a', 'd', 'a', 'h'],
 ['aa', 't', 'i', 'sh', '-', 'n', 'a', 'f', 'a', 's'],
 ['aa', 't', 'i', 'sh', '-', 'p', 'a', 'r', 'a', 's', 't'],
 ['aa', 't', 'i', 'sh', '-', 'z', 'a', 'd', 'a', 'h'],
 ['aa', 't', 'i', 'sh', 'ii', ';n'],
 ['aa', 'v', 'aa', 'r', 'a', 'g', 'ii'],
 ['aa', 'v', 'aa', 'r', 'a', 'h'],
 ['aa', 'v', 'aa', 'z'],
 ['aa', 'v', 'e'],
 ['aa', 'v', 'e', ';n'],
 ['aa', 'v', 'e', ';n', 'g', 'e'],
 ['aa', 'y', 'aa'],
 ['aa', 'y', 'e'],
 ['aa', 'z', 'aa', 'd'],
 ['aa', 'z', 'm', 'aa', '))', 'e'],
 ['aa', 'z', 'm', 'aa', '))', 'i', 'sh'],
 ['aa', 'z', 'm', 'aa', 'n', 'aa'],
 ['aa', 'z', 'm', 'aa', 'n', 'e'],
 ['aa', 'z', 'u', 'r', 'd', 'a', 'h'],
 ['a', 'b'],
 ['a', 'bh', 'ii'],
 ['a', 'b', 'j', 'a', 'd'],
 ['a', 'ch', 'chh', 'aa'],
 ['a', 'ch', 'chh', 'e'],
 ['a', 'd', 'a', 'b'],
 ['a', 'f', '((', 'ii'],
 ['a', 'f', 'g', 'aa', 'r'],
 ['a', 'f', 's', 'aa', 'n', 'a', 'h'],
 ['a', 'f', 'sh', 'u', 'r', 'd', 'a', 'n'],
 ['a', 'f', 's', 'u', 'r', 'd', 'a', 'h'],
 ['a', 'f', 's', 'uu', 's'],
 ['a', 'g', 'a', 'r'],
 ['a', 'g', 'a', 'r', 'ch', 'i', 'h'],
 ['a', 'g', 'l', 'e'],
 ['a', 'h', 'a', 'm'],
 ['ai', 's', 'aa'],
 ['ai', 's', 'e'],
 ['ai', 's', 'ii'],
 ['a', 'k', ';s', 'a', 'r'],
 ['a', 'k', 'b', 'a', 'r'],
 ['a', 'l', '-', 'a', 'm', 'aa', ';n'],
 ['a', 'l', '-', 'b', 'a', ';h', 'r'],
 ['a', 'l', '-', 'h', 'a', 'v', 'a', 's'],
 ['a', 'l', '-', 'l', ';aa', 'h'],
 ['a', 'l', 'i', 'f'],
 ['a', 'l', 'm', 'aa', 's'],
 ['a', 'm', 'aa', ';n'],
 ['a', 'm', 'n'],
 ['a', 'n', 'aa'],
 ['a', 'n', 'd', 'aa', 'z', 'e'],
 ['a', 'n', 'd', 'a', 'r'],
 ['a', 'n', 'd', 'e', 'sh', 'e'],
 ['a', 'n', 'dh', 'e', 'r'],
 ['a', 'n', 'g', 'e', 'z'],
 ['a', 'n', 'g', 'uu', 'r'],
 ['a', 'p', 'n', 'aa'],
 ['a', 'p', 'n', 'aa', '-', 's', 'aa'],
 ['a', 'p', 'n', 'e'],
 ['a', 'p', 'n', 'ii'],
 ['a', 'r', 'm', 'aa', 'n'],
 ['a', 'r', 'm', 'u', ';g', 'aa', ';n'],
 ['a', 'r', 'z', 'aa', ';n'],
 ['a', 's', 'aa', 'm', 'ii'],
 ['a', 's', 'a', 'd', '-', 'u', 'l', '-', 'l', ';aa', 'h'],
 ['a', 'sh', '((', 'aa', 'r'],
 ['a', 'sh', 'k', '-', 'b', 'aa', 'r', 'ii'],
 ['a', 'sh', 'y', 'aa'],
 ['a', 's', 'ii', 'r'],
 ['a', 's', 'ii', 'r', 'ii'],
 ['au', 'r'],
 ['a', 'y'],
 ['a', 'y', 'aa', ';g'],
 ['a', 'z'],
 ['a', 'z', '-', 'b', 'a', 's', 'k', 'i', 'h'],
 ['a', 'z', '-', 'd', 'a', 's', 't', '-', 'r', 'a', 'f', 't', 'a', 'h'],
 ['a', 'z', 'a', 'l'],
 ['b', 'a', '((', 'ii', 'd'],
 ['b', 'a', ';g', 'a', 'l'],
 ['b', 'a', ';n', 'dh', 'aa'],
 ['b', 'a', ';n', 'dh', 'e'],
 ['b', 'a', ';rh'],
 ['b', 'a', ';x', 'sh'],
 ['b', 'a', ';x', 'sh', 'e'],
 ['b', 'a', ';x', 'y', 'e'],
 ['b', 'aa'],
 ['b', 'aa', '))', 'i', ';s'],
 ['b', 'aa', '-', 'h', 'a', 'm', '-', 'd', 'i', 'g', 'a', 'r'],
 ['b', 'aa', ':t', 'i', 'l'],
 ['b', 'aa', ':t', 'i', 'n'],
 ['b', 'aa', ';g', '-', 'b', 'aa', 'n'],
 ['b', 'aa', ';n', 'dh'],
 ['b', 'aa', ';n', 'dh', 'aa'],
 ['b', 'aa', ';n', 'dh', 'e'],
 ['b', 'aa', ';n', 'dh', 'i', 'y', 'e'],
 ['b', 'aa', ';x', 't', 'a', 'n'],
 ['b', 'aa', 'd', '-', 'p', 'e', 'm', 'aa', '))', 'ii'],
 ['b', 'aa', 'd', 'a', 'h', '-', ';x', 'v', 'aa', 'r'],
 ['b', 'aa', 'd', 'a', 'h', '-', 'aa', 'sh', 'aa', 'm', 'ii'],
 ['b', 'aa', 'd', 'sh', 'aa', 'h'],
 ['b', 'aa', 'g'],
 ['b', 'aa', 'h', 'a', 'r'],
 ['b', 'aa', 'j', 'aa'],
 ['b', 'aa', 'l', '-', 'k', 'u', 'sh', 'aa'],
 ['b', 'aa', 'l', 'ii', ';n'],
 ['b', 'aa', 'm'],
 ['b', 'aa', 'n', 'ii'],
 ['b', 'aa', 'q', 'ii'],
 ['b', 'aa', 'r', '-', 'h', 'aa'],
 ['b', 'aa', 'r', 'e'],
 ['b', 'aa', 'r', 'i', 'sh'],
 ['b', 'aa', 't'],
 ['b', 'aa', 't', 'e', ';n'],
 ['b', 'aa', 'v', 'a', 'r'],
 ['b', 'aa', 'z'],
 ['b', 'aa', 'z', '-', 'g', 'a', 'sh', 't'],
 ['b', 'a', 'ch', 'e', ';n'],
 ['b', 'a', 'd', 'a', 'l', 'n', 'e'],
 ['b', 'a', 'd', 'ii'],
 ['b', 'a', 'd', 'l', 'aa'],
 ['b', 'a', 'd', 'l', 'e'],
 ['b', 'a', 'd', 'r'],
 ['b', 'a', 'h'],
 ['b', 'a', 'h', '-', ';z', 'a', 'r', 'r', 'a', 'h'],
 ['b', 'a', 'h', 'aa', '))', 'ii'],
 ['b', 'a', 'h', 'aa', 'n', 'e'],
 ['b', 'a', 'h', 'aa', 'r', 'ii'],
 ['b', 'a', 'h', 'a', 'm'],
 ['b', 'a', 'h', 'n', 'e'],
 ['b', 'a', 'h', 'r', 'aa'],
 ['b', 'a', 'h', 't', 'a', 'r'],
 ['b', 'a', 'h', 'u', 't'],
 ['b', 'ai', '.z', 'a', 'h', '-', 'aa', 's', 'aa'],
 ['b', 'ai', ';th'],
 ['b', 'ai', ';th', 'aa'],
 ['b', 'ai', ';th', 'e'],
 ['b', 'ai', ';th', 'e', ';n'],
 ['b', 'ai', ';th', 'i', 'y', 'e'],
 ['b', 'ai', ';th', 'n', 'aa'],
 ['b', 'a', 'k'],
 ['b', 'a', 'l', ';g', 'a', 'm', 'ii'],
 ['b', 'a', 'r', 'aa', '))', 'e'],
 ['b', 'a', 'r', 'ii', ';n'],
 ['b', 'a', 'r', 'j', 'aa', '-', 'm', 'aa', ';n', 'd', 'a', 'h'],
 ['b', 'a', 'r', 'q', '-', ';x', 'i', 'r', 'aa', 'm'],
 ['b', 'a', 'r', 's', 'aa', 't'],
 ['b', 'a', 'r', 'sh', '-', 'k', 'aa', 'l'],
 ['b', 'a', 's'],
 ['b', 'a', 'sh', 'a', 'r'],
 ['b', 'a', 's', 'k', 'i', 'h'],
 ['b', 'a', 't', 'aa', '))', 'uu', ';n'],
 ['b', 'a', 't', 'l', 'aa'],
 ['b', 'a', 't', 'l', 'aa', '))', 'e', ';n'],
 ['b', 'a', 'y', 'aa', ';n'],
 ['b', 'a', 'y', 'aa', 'b', 'aa', ';n'],
 ['b', 'a', 'z', 'm', '-', 'aa', 'r', 'aa', '))', 'i', 'y', 'aa', ';n'],
 ['b', 'e'],
 ['b', 'e', '-', '((', 'i', 'sh', 'q'],
 ['b', 'e', '-', '.s', 'a', 'd', 'aa'],
 ['b', 'e', '-', '.s', 'a', 'r', 'f', 'a', 'h'],
 ['b', 'e', '-', ':t', 'a', 'l', 'a', 'b'],
 ['b', 'e', '-', ';h', 'aa', '.s', 'i', 'l'],
 ['b', 'e', '-', ';h', 'au', '.s', 'l', 'a', 'g', 'ii'],
 ['b', 'e', '-', ';h', 'i', 'j', 'aa', 'b', 'i', 'y', 'aa', ';n'],
 ['b', 'e', '-', ';h', 'i', 's'],
 ['b', 'e', '-', ';x', 'a', 'b', 'a', 'r'],
 ['b', 'e', '-', ';x', 'v', 'aa', 'b'],
 ['b', 'e', '-', ';x', 'v', 'aa', 'b', 'ii'],
 ['b', 'e', '-', 'a', ';s', 'a', 'r'],
 ['b', 'e', '-', 'b', 'aa', 'k'],
 ['b', 'e', '-', 'b', 'a', 'h', 'r', 'a', 'h'],
 ['b', 'e', '-', 'b', 'u', 'n', 'y', 'aa', 'd'],
 ['b', 'e', '-', 'ch', 'ai', 'n'],
 ['b', 'e', '-', 'd', 'aa', 'd', '-', 'f', 'a', 'n'],
 ['b', 'e', '-', 'd', 'a', 'r'],
 ['b', 'e', '-', 'd', 'a', 'r', 'v', 'aa', 'z', 'a', 'h'],
 ['b', 'e', '-', 'd', 'a', 'v', 'aa'],
 ['b', 'e', '-', 'd', 'i', 'l', 'ii'],
 ['b', 'e', '-', 'd', 'i', 'm', 'aa', ';g'],
 ['b', 'e', '-', 'd', 'i', 'm', 'aa', ';g', 'ii'],
 ['b', 'e', '-', 'g', 'i', 'r', 'a', 'h'],
 ['b', 'e', '-', 'g', 'u', 'n', 'a', 'h'],
 ['b', 'e', '-', 'j', 'aa'],
 ['b', 'e', '-', 'j', 'u', 'r', 'm'],
 ['b', 'e', '-', 'k', 'a', ';s', 'aa', 'f', 'a', 't'],
 ['b', 'e', '-', 'k', 'a', 'f', 'a', 'n'],
 ['b', 'e', '-', 'k', 'a', 'r', 'aa', ';n'],
 ['b', 'e', '-', 'm', 'ai'],
 ['b', 'e', '-', 'm', 'a', 'z', 'aa'],
 ['b', 'e', '-', 'm', 'i', 'h', 'r'],
 ['b', 'e', '-', 'm', 'u', ';h', 'aa', 'b', 'aa'],
 ['b', 'e', '-', 'm', 'u', 'd', 'd', 'a', '((', 'aa'],
 ['b', 'e', '-', 'n', 'i', 'y', 'aa', 'z', 'ii'],
 ['b', 'e', '-', 'p', 'a', 'n', 'aa', 'h'],
 ['b', 'e', '-', 'p', 'a', 'r', 'd', 'a', 'h'],
 ['b', 'e', '-', 'p', 'a', 'r', 'v', 'aa'],
 ['b', 'e', '-', 'q', 'a', 'r', 'aa', 'r'],
 ['b', 'e', '-', 'q', 'a', 'r', 'aa', 'r', 'ii'],
 ['b', 'e', '-', 's', 'a', 'b', 'a', 'b'],
 ['b', 'e', '-', 's', 'a', 'v', 'aa', 'l'],
 ['b', 'e', '-', 'sh', 'a', 'm', '((', 'a'],
 ['b', 'e', '-', 'sh', 'ii', 'r', 'aa', 'z', 'a', 'h'],
 ['b', 'e', '-', 't', 'aa', 'b', 'ii'],
 ['b', 'e', '-', 't', 'a', 'k', 'a', 'l', 'l', 'u', 'f'],
 ['b', 'e', '-', 'v', 'a', 'f', 'aa'],
 ['b', 'e', '-', 'v', 'a', 'f', 'aa', '))', 'ii'],
 ['b', 'e', '-', 'z', 'aa', 'r'],
 ['b', 'e', '-', 'z', 'a', 'b', 'aa', ';n'],
 ['b', 'e', '-', 'z', 'a', 'b', 'aa', 'n', 'ii'],
 ['b', 'e', 'd'],
 ['b', 'e', 'd', 'aa', 'd', '-', 'g', 'a', 'r'],
 ['b', 'e', 'd', 'a', 'r', 'd'],
 ['b', 'e', 'd', 'i', 'l'],
 ['b', 'e', 'k', 'aa', 'r'],
 ['b', 'e', 'q', 'a', 'r', 'aa', 'r', 'ii'],
 ['b', 'e', 'sh'],
 ['b', 'e', 't', 'aa', 'b'],
 ['b', 'e', 't', 'aa', 'b', 'ii'],
 ['b', 'e', 'v', 'a', 'f', 'aa'],
 ['bh', 'aa', '))', 'ii'],
 ['bh', 'aa', 'g', 'aa'],
 ['bh', 'aa', 'g', 'e'],
 ['bh', 'aa', 'g', 'e', ';n', 'g', 'e'],
 ['bh', 'aa', 'g', 'n', 'e'],
 ['bh', 'a', 'l', 'aa'],
 ['bh', 'a', 'l', 'e'],
 ['bh', 'a', 'r'],
 ['bh', 'a', 'r', 'a', 'm'],
 ['bh', 'a', 'r', 'e'],
 ['bh', 'a', 'r', 'n', 'e'],
 ['bh', 'a', 'r', 'uu', ';n'],
 ['bh', 'e', 'd'],
 ['bh', 'e', 's'],
 ['bh', 'ii'],
 ['bh', 'uu', 'k', 'e'],
 ['bh', 'uu', 'l'],
 ['bh', 'uu', 'l', 'aa'],
 ['bh', 'uu', 'l', 'e'],
 ['b', 'i', 'chh', 'aa', '))', 'e'],
 ['b', 'i', 'g', 'a', ';r'],
 ['b', 'i', 'g', 'a', ';r', 'n', 'aa'],
 ['b', 'i', 'h', 'i', 'sh', 't'],
 ['b', 'i', 'h', 'i', 'sh', 't', '-', 'sh', 'a', 'm', 'aa', '))', 'i', 'l'],
 ['b', 'ii', 'm', 'aa', 'r', '-', 'd', 'aa', 'r'],
 ['b', 'ii', 'n', 'aa'],
 ['b', 'ii', 'n', 'aa', '))', 'ii'],
 ['b', 'ii', 'n', 'i', 'sh'],
 ['b', 'i', 'j', 'l', 'ii'],
 ['b', 'i', 'k'],
 ['b', 'i', 'kh', 'a', 'r'],
 ['b', 'i', 'n'],
 ['b', 'i', 's', 'm', 'i', 'l'],
 ['b', 'u', '((', 'd'],
 ['b', 'u', 'jh', 'aa'],
 ['b', 'u', 'jh', 'aa', '))', 'e'],
 ['b', 'u', 'l', 'aa'],
 ['b', 'u', 'l', 'aa', '))', 'e'],
 ['b', 'u', 'l', 'a', 'n', 'd', 'ii'],
 ['b', 'u', 'l', 'b', 'u', 'l', 'e', ';n'],
 ['b', 'u', 'r', 'aa'],
 ['b', 'u', 'r', 'aa', '))', 'ii'],
 ['b', 'u', 'r', 'd', 'a', 'h'],
 ['b', 'u', 'r', 'ii'],
 ['b', 'u', 's', 't', 'aa', 'n', 'ii'],
 ['b', 'u', 't', '-', ';x', 'aa', 'n', 'a', 'h'],
 ['b', 'u', 't', '-', ';x', 'aa', 'n', 'e'],
 ['b', 'u', 't', '-', 'k', 'a', 'd', 'e'],
 ['b', 'u', 't', '-', 'sh', 'i', 'k', 'a', 'n', 'ii'],
 ['b', 'u', 't', 'aa', ';n'],
 ['b', 'uu', '-', "'", 'l', '-', 'h', 'a', 'v', 'a', 's'],
 ['b', 'uu', '-', 't', 'u', 'r', 'aa', 'b'],
 ['b', 'uu', ';n', 'd'],
 ['b', 'u', 'z', 'u', 'r', 'g'],
 ['ch', 'a', ';rh'],
 ['ch', 'a', ';rh', 'ii'],
 ['ch', 'a', ';t', 'a', 'k', 'n', 'aa'],
 ['ch', 'aa', 'h'],
 ['ch', 'aa', 'h', 'aa'],
 ['ch', 'aa', 'h', 'e'],
 ['ch', 'aa', 'h', 'e', ';n'],
 ['ch', 'aa', 'h', 'i', 'y', 'e'],
 ['ch', 'aa', 'h', 'n', 'e'],
 ['ch', 'aa', 'h', 'n', 'e', '-', 'v', 'aa', 'l', 'aa'],
 ['ch', 'aa', 'h', 'uu', ';n'],
 ['ch', 'aa', 'l'],
 ['ch', 'aa', 'l', 'aa', 'k'],
 ['ch', 'aa', 'r'],
 ['ch', 'aa', 'r', '-', 'd', 'u', 'h', 'a', 'm'],
 ['ch', 'aa', 'r', '-', 'm', 'au', 'j'],
 ['ch', 'aa', 'r', 'a', 'h', '-', 'g', 'a', 'r'],
 ['ch', 'aa', 'r', 'a', 'h', '-', 'j', 'uu', '))', 'ii'],
 ['ch', 'aa', 'r', 'a', 'h', '-', 's', 'aa', 'z'],
 ['ch', 'a', 'h', 'r', 'a', 'h'],
 ['ch', 'a', 'h', 'r', 'e'],
 ['ch', 'ai', 'n'],
 ['ch', 'a', 'k', 'ii', 'd', 'a', 'n'],
 ['ch', 'a', 'k', 'k', 'a', 'r'],
 ['ch', 'a', 'l'],
 ['ch', 'a', 'l', 'aa'],
 ['ch', 'a', 'l', 'e'],
 ['ch', 'a', 'l', 'e', ';n'],
 ['ch', 'a', 'l', 'ii'],
 ['ch', 'a', 'l', 'n', 'e'],
 ['ch', 'a', 'm', 'a', 'n'],
 ['ch', 'a', 'n', 'd'],
 ['ch', 'a', 'n', 'd', 'e'],
 ['ch', 'a', 'n', 'g'],
 ['ch', 'a', 'r', 'ch', 'aa'],
 ['ch', 'a', 'sh', 'm', '-', 'n', 'u', 'm', 'aa', '))', 'ii'],
 ['chh', 'a', 'l', 'l', 'e'],
 ['chh', 'e', ';r'],
 ['chh', 'e', ';r', 'e'],
 ['chh', 'e', ';r', 'e', ';n', 'g', 'e'],
 ['chh', 'e', ';r', 'i', 'y', 'e'],
 ['chh', 'e', ';r', 'uu', ';n'],
 ['chh', 'i', ';r', 'k', 'aa'],
 ['chh', 'i', ';r', 'k', 'e'],
 ['chh', 'i', ';r', 'k', 'e', ';n'],
 ['chh', 'i', 'd', 'e'],
 ['chh', 'u', ';t'],
 ['chh', 'u', ';t', 'aa'],
 ['chh', 'u', ';t', 'ii'],
 ['chh', 'u', 'p', 'aa', '))', 'e'],
 ['chh', 'u', 'p', 'aa', 'n', 'aa'],
 ['chh', 'u', 'p', 'aa', 'n', 'e'],
 ['chh', 'u', 'p', 'n', 'aa'],
 ['chh', 'u', 'r', 'ii'],
 ['chh', 'uu', ';t', 'aa'],
 ['chh', 'uu', ';t', 'uu', ';n'],
 ['ch', 'ii', ';x', 'uu', ';n'],
 ['ch', 'ii', 'r'],
 ['ch', 'ii', 'z'],
 ['ch', 'i', 'p', 'a', 'k'],
 ['ch', 'i', 'r', 'aa', ';g', 'aa', ';n'],
 ['ch', 'u', 'k', 'e'],
 ['ch', 'u', 'k', 'ii', ';n'],
 ['ch', 'u', 'p'],
 ['ch', 'u', 'p', 'k', 'e'],
 ['ch', 'u', 'r', 'aa', 'n', 'aa'],
 ['d', 'a', '((', 'v', 'e'],
 ['d', 'aa', '))', 'i', 'm'],
 ['d', 'aa', '))', 'i', 'm', '-', 'u', 'l', '-', ';h', 'a', 'b', 's'],
 ['d', 'aa', ';g', '-', 's', 'aa', 'm', 'aa', ';n'],
 ['d', 'aa', 'b'],
 ['d', 'aa', 'd'],
 ['d', 'aa', 'd', '-', ';x', 'v', 'aa', 'h'],
 ['d', 'aa', 'd', 'a', 'h'],
 ['d', 'aa', 'm', '-', 'g', 'aa', 'h'],
 ['d', 'aa', 'm', 'aa', ';n'],
 ['d', 'aa', 'm', 'a', 'n'],
 ['d', 'aa', 'm', 'a', 'n', '-', 'a', 'f', 'sh', 'aa', 'n', 'ii'],
 ['d', 'aa', 'n', 'aa'],
 ['d', 'aa', 'n', 'a', 'h'],
 ['d', 'a', 'b'],
 ['d', 'a', 'b', 'aa'],
 ['d', 'a', 'b', 'ii'],
 ['d', 'a', 'b', 'i', 's', 't', 'aa', ';n'],
 ['d', 'a', 'f', 'ii', 'n', 'a', 'h'],
 ['d', 'a', 'f', 'n'],
 ['d', 'a', 'h', 'aa', ';n'],
 ['d', 'a', 'h', 'r'],
 ['d', 'ai'],
 ['d', 'ai', 'r'],
 ['d', 'a', 'n', 'd', 'aa', ';n'],
 ['d', 'a', 'n', 'd', 'aa', ';n', '-', 'n', 'u', 'm', 'aa'],
 ['d', 'a', 'r', '-', ';x', 'v', 'a', 'r'],
 ['d', 'a', 'r', '-', 'k', 'aa', 'r'],
 ['d', 'a', 'r', '-', 'm', 'aa', ';n', 'd', 'a', 'g', 'ii'],
 ['d', 'a', 'r', '-', 'p', 'a', 'r', 'd', 'a', 'h'],
 ['d',
  'a',
  'r',
  '-',
  't',
  'i',
  'sh',
  'n',
  'a',
  'g',
  'ii',
  '-',
  'm',
  'u',
  'r',
  'd',
  'a',
  'g',
  'aa',
  ';n'],
 ['d', 'a', 'r', 'a', ';x', 'sh', 'aa', ';n'],
 ['d', 'a', 'r', 'aa', 'z'],
 ['d', 'a', 'r', 'aa', 'z', 'ii'],
 ['d', 'a', 'r', 'b', 'aa', ';n'],
 ['d', 'a', 'r', 'b', 'aa', 'n', 'ii'],
 ['d', 'a', 'r', 'd', '-', 'm', 'a', 'n', 'd'],
 ['d', 'a', 'r', 'e', ';g'],
 ['d', 'a', 'r', 'e', ';g', 'aa'],
 ['d', 'a', 'r', 'm', 'aa', ';n', 'd', 'a', 'g', 'ii'],
 ['d', 'a', 'r', 'm', 'i', 'y', 'aa', ';n'],
 ['d', 'a', 'r', 'uu', ';n'],
 ['d', 'a', 'r', 'v', 'aa', 'z', 'a', 'h'],
 ['d', 'a', 'r', 'v', 'e', 'sh'],
 ['d', 'a', 'r', 'y', 'aa', '-', 'aa', 'sh', 'n', 'aa'],
 ['d', 'a', 'sh', 'n', 'e'],
 ['d', 'a', 'sh', 't', '-', 'n', 'a', 'v', 'a', 'r', 'd', 'ii'],
 ['d', 'a', 's', 't', '-', 'g', 'a', 'r', 'd', 'aa', ';n'],
 ['d', 'a', 's', 't', '-', 'g', 'ii', 'r', 'ii'],
 ['d', 'a', 's', 't', 'aa', 'r'],
 ['d', 'au', ';r', 'aa', '))', 'e'],
 ['d', 'au', ';r', 'e'],
 ['d', 'a', 'v', 'aa'],
 ['d', 'a', 'v', 'aa', 'm'],
 ['d', 'e'],
 ['d', 'e', ';n'],
 ['d', 'e', ';n', 'g', 'e'],
 ['d', 'e', 'kh'],
 ['d', 'e', 'kh', 'aa'],
 ['d', 'e', 'kh', 'e'],
 ['d', 'e', 'kh', 'e', ';n'],
 ['d', 'e', 'kh', 'ii'],
 ['d', 'e', 'kh', 'i', 'y', 'e'],
 ['d', 'e', 'kh', 'n', 'aa'],
 ['d', 'e', 'kh', 'n', 'e'],
 ['d', 'e', 'kh', 'uu', ';n'],
 ['d', 'e', 'n', 'aa'],
 ['d', 'e', 'n', 'e'],
 ['d', 'e', 'n', 'ii'],
 ['dh', 'a', 'b', 'b', 'e'],
 ['dh', 'a', 'm', 'k', 'ii'],
 ['dh', 'a', 'r', 'aa'],
 ['dh', 'au', 'l', '-', 'dh', 'a', 'p', 'p', 'aa'],
 ['dh', 'u', 'v', 'aa', ';n'],
 ['d', 'i', 'g', 'a', 'r'],
 ['d', 'i', 'h', 'q', 'aa', ';n'],
 ['d', 'ii'],
 ['d', 'ii', ';n', '-', 'd', 'aa', 'r'],
 ['d', 'ii', 'd'],
 ['d', 'ii', 'g', 'a', 'r'],
 ['d', 'ii', 'j', 'e'],
 ['d', 'ii', 'j', 'i', 'y', 'e'],
 ['d', 'ii', 'v', 'aa', 'n', 'a', 'h'],
 ['d', 'i', 'j', 'l', 'a', 'h'],
 ['d', 'i', 'kh', 'aa'],
 ['d', 'i', 'kh', 'aa', '))', 'e', ';n'],
 ['d', 'i', 'kh', 'aa', '))', 'ii'],
 ['d', 'i', 'kh', 'aa', '))', 'uu', ';n', 'g', 'aa'],
 ['d', 'i', 'kh', 'l', 'aa'],
 ['d', 'i', 'kh', 'l', 'aa', '))', 'e', ';n'],
 ['d', 'i', 'kh', 'l', 'aa', 'v', 'e'],
 ['d', 'i', 'l', '-', 'aa', 'sh', 'u', 'f', 't', 'a', 'g', 'aa', ';n'],
 ['d', 'i', 'l', '-', 'aa', 'z', 'aa', 'r'],
 ['d', 'i', 'l', '-', 'aa', 'z', 'u', 'r', 'd', 'a', 'g', 'aa', ';n'],
 ['d', 'i', 'l', '-', 'b', 'a', 'r', 'ii'],
 ['d', 'i', 'l', '-', 'b', 'a', 's', 't', 'a', 'g', 'ii'],
 ['d', 'i', 'l', '-', 'd', 'aa', 'r'],
 ['d', 'i', 'l', '-', 'j', 'a', 'm', '((', 'ii'],
 ['d', 'i', 'l', '-', 'k', 'a', 'sh'],
 ['d', 'i', 'l', '-', 'k', 'u', 'sh', 'aa'],
 ['d', 'i', 'l', '-', 'l', 'a', 'g', 'ii'],
 ['d', 'i', 'l', '-', 'p', 'a', ';z', 'ii', 'r'],
 ['d', 'i', 'l', '-', 's', 'i', 't', 'aa', ';n'],
 ['d', 'i', 'l', '-', 's', 'i', 't', 'aa', 'n', 'ii'],
 ['d', 'i', 'l', 'aa'],
 ['d', 'i', 'l', 'b', 'a', 'r'],
 ['d', 'i', 'l', 'b', 'a', 'r', 'aa', ';n'],
 ['d', 'i', 'l', 'd', 'aa', 'r'],
 ['d', 'i', 'l', 'l', 'a', 'g', 'ii'],
 ['d', 'i', 'l', 'l', 'ii'],
 ['d', 'i', 'n'],
 ['d', 'i', 'y', 'aa'],
 ['d', 'i', 'y', 'e'],
 ['d', 'u', '((', 'aa'],
 ['d', 'u', '((', 'aa', '))', 'e', ';n'],
 ['d', 'u', 'kh'],
 ['d', 'u', 'n', 'y', 'aa'],
 ['d', 'u', 'r', 'u', 's', 't'],
 ['d', 'u', 'sh', 'm', 'a', 'n', 'ii'],
 ['d', 'u', 'sh', 'n', 'aa', 'm'],
 ['d', 'u', 'sh', 'v', 'aa', 'r'],
 ['d', 'u', 'sh', 'v', 'aa', 'r', '-', 'p', 'a', 's', 'a', 'n', 'd'],
 ['d', 'uu', '))', 'ii'],
 ['d', 'uu', ';n'],
 ['d', 'uu', 'n', 'aa'],
 ['d', 'uu', 'r'],
 ['d', 'uu', 'r', '-', 'd', 'a', 'r', 'aa', 'z'],
 ['e', 'k'],
 ['e', 'k', '-', 's', 'aa'],
 ['f', 'aa', '))', 'i', 'd', 'a', 'h'],
 ['f', 'aa', 'n', 'uu', 's'],
 ['f', 'aa', 'r', 'i', ';g'],
 ['f', 'aa', 'r', 's', 'ii'],
 ['f', 'a', 'n', 'aa'],
 ['f', 'a', 'r', 'aa', ';g'],
 ['f', 'a', 'r', 'aa', ';g', 'a', 't'],
 ['f', 'a', 'r', 'aa', 'h', 'a', 'm'],
 ['f', 'a', 'r', 'h', 'aa', 'd'],
 ['f', 'a', 'r', 'i', 'sh', 't', 'a', 'h'],
 ['f', 'a', 'r', 'm', 'aa', 'v', 'e', ';n', 'g', 'e'],
 ['f', 'a', 'r', 'q', 'a', 't'],
 ['f', 'a', 's', 'aa', ';n'],
 ['f', 'a', 't', ';h'],
 ['f', 'a', 't', 'ii', 'l', 'a', 'h'],
 ['f', 'au', 'j', 'd', 'aa', 'r', 'ii'],
 ['f', 'i', ';g', 'aa', ';n'],
 ['f', 'i', 'd', 'aa'],
 ['f', 'i', 'g', 'aa', 'r'],
 ['f', 'i', 't', 'n', 'e'],
 ['f', 'i', 't', 'r', 'aa', 'k'],
 ['f', 'u', 'r', 'q', 'a', 't'],
 ['f', 'u', 'r', 'uu', '(('],
 ['f', 'u', 's', 'u', 'r', 'd', 'a', 'g', 'ii'],
 ['f', 'u', 's', 'uu', ';n', '-', 'g', 'a', 'r'],
 ['g', 'a', '))', 'e'],
 ['g', 'a', '))', 'ii'],
 ['g', 'a', '))', 'ii', ';n'],
 ['g', 'a', ';n', 'v', 'aa'],
 ['g', 'aa', 'l', 'i', 'y', 'aa', ';n'],
 ['g', 'a', 'd', 'aa', '))', 'ii'],
 ['g',
  'a',
  'h',
  'v',
  'aa',
  'r',
  'a',
  'h',
  '-',
  'j',
  'u',
  'n',
  'b',
  'aa',
  'n',
  'ii'],
 ['g', 'a', 'l', 'ii'],
 ['g', 'a', 'r'],
 ['g', 'a', 'r', 'ch', 'i', 'h'],
 ['g', 'a', 'r', 'd', 'uu', ';n'],
 ['g', 'a', 'r', 'e', 'b', 'aa', ';n'],
 ['g', 'a', 'r', 'e', 'b', 'aa', 'n', 'ii'],
 ['g', 'a', 'v', 'aa', 'r', 'aa'],
 ['g', 'a', 'y', 'aa'],
 ['g', 'a', 'y', 'e'],
 ['g', 'a', 'z'],
 ['gh', 'aa', 's'],
 ['gh', 'a', 'b', 'r', 'aa'],
 ['gh', 'a', 'b', 'r', 'aa', '))', 'e', ';n'],
 ['gh', 'a', 'b', 'r', 'aa', '))', 'e', 'g', 'aa'],
 ['gh', 'a', 'b', 'r', 'aa', 'v', 'e', ';n', 'g', 'e'],
 ['gh', 'a', 'r'],
 ['gh', 'i', 's', 'e', 'g', 'aa'],
 ['gh', 'i', 's', 'n', 'e'],
 ['g', 'ii', 'r', 'aa', '))', 'ii'],
 ['g', 'i', 'l', 'aa'],
 ['g', 'i', 'l', 'a', 'h'],
 ['g', 'i', 'r'],
 ['g', 'i', 'r', 'aa'],
 ['g', 'i', 'r', 'aa', ';n'],
 ['g', 'i', 'r', 'aa', ';n', '-', 'j', 'aa', 'n', 'ii'],
 ['g', 'i', 'r', 'aa', ';n', '-', 'm', 'aa', 'y', 'a', 'h'],
 ['g', 'i', 'r', 'aa', ';n', '-', 'n', 'i', 'sh', 'ii', ';n'],
 ['g', 'i', 'r', 'aa', 'n', 'ii'],
 ['g', 'i', 'r', 'a', 'h', '-', 'k', 'u', 'sh', 'aa'],
 ['g', 'i', 'r', 'd', 'aa', 'b'],
 ['g', 'i', 'r', 'i', 'h'],
 ['g', 'i', 'r', 'ii'],
 ['g', 'i', 'r', 'n', 'ii'],
 ['g', 'i', 'r', 'y', 'e'],
 ['g', 'i', 'y', 'aa', 'h'],
 ['g', 'u', 'd', 'aa', ';x', 't', 'a', 'h'],
 ['g', 'u', 'h', 'a', 'r'],
 ['g', 'u', 'h', 'a', 'r', '-', 'b', 'aa', 'r'],
 ['g', 'u', 'l', '-', 'b', 'aa', 'z'],
 ['g', 'u', 'l', '-', 'ch', 'ii', ';n'],
 ['g', 'u', 'l', '-', 'f', 'i', 'sh', 'aa', 'n', 'ii'],
 ['g', 'u', 'l', '-', 'k', 'a', 't', 'a', 'r'],
 ['g', 'u', 'l', ';x', 'a', 'n'],
 ['g', 'u', 'l', 'd', 'a', 's', 't', 'a', 'h'],
 ['g', 'u', 'l', 'f', 'aa', 'm'],
 ['g', 'u', 'l', 'i', 's', 't', 'aa', ';n'],
 ['g', 'u', 'l', 'sh', 'a', 'n'],
 ['g', 'u', 'l', 's', 'i', 't', 'aa', ';n'],
 ['g', 'u', 'l', 'z', 'aa', 'r'],
 ['g', 'u', 'm'],
 ['g', 'u', 'm', '-', 'g', 'a', 'sh', 't', 'a', 'h'],
 ['g', 'u', 'm', 'aa', ';n'],
 ['g', 'u', 'n', 'aa', 'h'],
 ['g', 'u', 'n', 'aa', 'h', 'g', 'aa', 'r'],
 ['g', 'u', 'n', 'a', 'h'],
 ['g', 'u', 'r', 'e', 'z', '-', 'p', 'aa'],
 ['g', 'u', 'r', 'e', 'z', 'aa', ';n'],
 ['g', 'u', 's', 't', 'aa', ';x'],
 ['g', 'uu', ';n'],
 ['g', 'uu', 'n', 'a', 'h'],
 ['g', 'u', 'z', 'aa', 'r', 'aa'],
 ['g', 'u', 'z', 'a', 'r'],
 ['g', 'u', 'z', 'a', 'r', 'n', 'aa'],
 ['g', 'u', 'z', 'a', 'sh', 't', 'a', 'h'],
 ['g', 'u', 'z', 'r', 'aa'],
 ['g', 'u', 'z', 'r', 'e'],
 ['g', 'u', 'z', 'r', 'ii'],
 ['h', 'a', ';n', 's'],
 ['h', 'a', ';n', 's', 'ii'],
 ['h', 'aa', '))', 'e'],
 ['h', 'aa', ';n'],
 ['h', 'aa', 'th'],
 ['h', 'aa', 'y'],
 ['h', 'a', 'd', 'y', 'a', 'h'],
 ['h', 'a', 'f', 't'],
 ['h', 'ai'],
 ['h', 'ai', ';n'],
 ['h', 'ai', 'h', 'aa', 't'],
 ['h', 'a', 'j', 'r'],
 ['h', 'a', 'l', '-', 'm', 'i', 'n', '-', 'm', 'a', 'z', 'ii', 'd'],
 ['h', 'a', 'm'],
 ['h', 'a', 'm', '-', 'd', 'a', 'm', 'ii'],
 ['h', 'a', 'm', '-', 'd', 'ii', 'g', 'a', 'r'],
 ['h', 'a', 'm', '-', 'n', 'i', 'sh', 'ii', ';n'],
 ['h', 'a', 'm', '-', 'r', 'a', 'h', 'aa', ';n'],
 ['h', 'a', 'm', '-', 's', 'aa'],
 ['h', 'a', 'm', '-', 's', 'aa', 'y', 'a', 'h'],
 ['h', 'a', 'm', '-', 's', 'aa', 'y', 'e'],
 ['h', 'a', 'm', '-', 's', 'a', 'f', 'a', 'r'],
 ['h', 'a', 'm', '-', 's', 'u', ';x', 'a', 'n'],
 ['h', 'a', 'm', '-', 'z', 'a', 'b', 'aa', ';n'],
 ['h', 'a', 'm', 'aa', 'r', 'aa'],
 ['h', 'a', 'm', 'aa', 'r', 'e'],
 ['h', 'a', 'm', 'aa', 'r', 'ii'],
 ['h', 'a', 'm', 'a', 'h'],
 ['h', 'a', 'm', 'd', 'a', 'm'],
 ['h', 'a', 'm', 'e', ';n'],
 ['h', 'a', 'm', 'e', 'sh', 'a', 'h'],
 ['h', 'a', 'm', 'v', 'aa', 'r'],
 ['h', 'a', 'n', 'g', 'aa', 'm', 'a', 'h', '-', 'aa', 'r', 'aa'],
 ['h', 'a', 'n', 'g', 'aa', 'm', 'e'],
 ['h', 'a', 'n', 'uu', 'z'],
 ['h', 'a', 'r'],
 ['h', 'a', 'r', '-', 'ch', 'a', 'n', 'd'],
 ['h', 'a', 'r', 'z', 'a', 'h'],
 ['h', 'a', 'th', 'k', 'a', ';n', ';d', 'e'],
 ['h', 'a', 'v', 'aa', '-', ';x', 'v', 'aa', 'h'],
 ['h', 'a', 'v', 'aa', '-', ';x', 'v', 'aa', 'h', 'ii'],
 ['h', 'a', 'y'],
 ['h', 'a', 'y', 'uu', 'l', ';aa'],
 ['h', 'a', 'z', 'aa', 'r'],
 ['h', 'e', 'ch', '-', 'm', 'a', 'd', 'aa', 'n', 'ii'],
 ['h', 'ii'],
 ['h', 'i', 'j', 'r', 'aa', ';n'],
 ['h', 'i', 'l', 'aa', 'l'],
 ['h', 'i', 'n', 'd', 'uu', 's', 't', 'aa', 'n'],
 ['h', 'u', '))', 'aa'],
 ['h', 'u', '))', 'e'],
 ['h', 'u', '))', 'ii'],
 ['h', 'u', ';n'],
 ['h', 'u', 'm', 'aa'],
 ['h', 'u', 'n', 'a', 'r'],
 ['h', 'u', 'sh', 'y', 'aa', 'r'],
 ['h', 'uu', ';n'],
 ['h', 'uu', 'j', 'i', 'y', 'e'],
 ['i', '((', 't', 'i', 'd', 'aa', 'l'],
 ['i', '((', 't', 'i', 'q', 'aa', 'd'],
 ['i', ':z', 'h', 'aa', 'r'],
 ['i', ';h', 's', 'aa', ';n'],
 ['i', ';s', 'b', 'aa', 't'],
 ['i', ';x', 't', 'i', 'y', 'aa', 'r'],
 ['i', 'b', 'r', 'aa', 'm'],
 ['i', 'dh', 'a', 'r'],
 ['i', 'h', 't', 'i', 'z', 'aa', 'z'],
 ['ii', ';n'],
 ['ii', 'j', 'aa', 'd'],
 ['ii', 'm', 'aa', ';n'],
 ['ii', 'm', 'aa', 'n'],
 ['i', 'j', 'aa', 'b', 'a', 't'],
 ['i', 'j', 'aa', 'r', 'aa'],
 ['i', 'k'],
 ['i', 'k', 'r', 'aa', 'm'],
 ['i', 'l', ';aa', 'h', 'ii'],
 ['i', 'l', 't', 'i', 'h', 'aa', 'b'],
 ['i', 'l', 't', 'i', 'j', 'aa'],
 ['i', 'm', 'k', 'aa', ';n'],
 ['i', 'm', 't', 'i', ';h', 'aa', ';n'],
 ['i', 'n'],
 ['i', 'n', '.s', 'aa', 'f'],
 ['i', 'n', 'f', 'a', '((', 'aa', 'l'],
 ['i', 'n', 'f', 'i', '((', 'aa', 'l'],
 ['i', 'n', 'k', 'aa', 'r'],
 ['i', 'n', 's', 'aa', ';n'],
 ['i', 'n', 's', 'aa', 'n'],
 ['i', 'n', 't', 'i', '.z', 'aa', 'r'],
 ['i', 'n', 't', 'i', ':z', 'aa', 'm'],
 ['i', 'n', 't', 'i', ';x', 'aa', 'b'],
 ['i', 'n', 't', 'i', 'q', 'aa', 'm'],
 ['i', 'q', 'aa', 'm', 'a', 't'],
 ['i', 'r', 'a', 'm'],
 ['i', 's'],
 ['i', 'sh', 'aa', 'r', 'aa'],
 ['i', 'sh', 'aa', 'r', 'a', 'h'],
 ['i', 'sh', 'aa', 'r', 'a', 't'],
 ['i', 'sh', 'aa', 'r', 'e'],
 ['i', 'sh', 't', 'i', 'y', 'aa', 'q', '-', 'a', 'n', 'g', 'e', 'z'],
 ['i', 't', 'n', 'aa'],
 ['i', 't', 'n', 'e'],
 ['i', 't', 'n', 'ii'],
 ['i', 't', 'r', 'aa', '))', 'e'],
 ['i', 't', 't', 'i', 'f', 'aa', 'q', 'ii'],
 ['j', 'aa', '))', 'e'],
 ['j', 'aa', '))', 'e', ';n'],
 ['j', 'aa', '))', 'e', ';n', 'g', 'e'],
 ['j', 'aa', '))', 'e', 'g', 'aa'],
 ['j', 'aa', '))', 'e', 'g', 'ii'],
 ['j', 'aa', '))', 'i', 'y', 'e'],
 ['j', 'aa', '))', 'uu', ';n'],
 ['j', 'aa', ';n'],
 ['j', 'aa', ';n', '-', 'f', 'i', 'z', 'aa'],
 ['j', 'aa', ';n', '-', 'g', 'u', 'd', 'aa', 'z'],
 ['j', 'aa', ';n', '-', 'g', 'u', 's', 'i', 'l'],
 ['j', 'aa', ';n', '-', 's', 'i', 'p', 'aa', 'r', 'ii'],
 ['j', 'aa', ';n', '-', 's', 'i', 't', 'aa', ';n'],
 ['j', 'aa', ';n', '-', 's', 'i', 't', 'aa', ';n', '-', 't', 'a', 'r'],
 ['j', 'aa', 'g', 'e'],
 ['j', 'aa', 'n', 'aa'],
 ['j', 'aa', 'n', 'aa', ';n'],
 ['j', 'aa', 'n', 'e'],
 ['j', 'aa', 'n', 'e', ';n'],
 ['j', 'aa', 'n', 'e', 'g', 'aa'],
 ['j', 'aa', 'n', 'i', 'y', 'e'],
 ['j', 'aa', 'n', 'uu', ';n'],
 ['j', 'aa', 'r', 'ii'],
 ['j', 'aa', 'v', 'e'],
 ['j', 'aa', 'v', 'e', ';n'],
 ['j', 'aa', 'v', 'e', ';n', 'g', 'e'],
 ['j', 'aa', 'v', 'e', 'd'],
 ['j', 'aa', 'v', 'i', 'd', 'aa', ';n'],
 ['j', 'a', 'b'],
 ['j', 'a', 'b', 'ii', ';n'],
 ['j', 'a', 'f', 'aa'],
 ['j', 'a', 'f', 'aa', '))', 'e', ';n'],
 ['j', 'a', 'g', 'a', 'h'],
 ['j', 'a', 'h', 'aa', ';n'],
 ['j', 'a', 'h', 'aa', ';n', '-', 't', 'aa', 'b'],
 ['j', 'ai', 's', 'e'],
 ['j', 'a', 'l'],
 ['j', 'a', 'l', 'aa'],
 ['j', 'a', 'l', 'aa', 'n', 'e'],
 ['j', 'a', 'l', 'e'],
 ['j', 'a', 'l', 'ii'],
 ['j', 'a', 'l', 'l', 'aa', 'd'],
 ['j', 'a', 'l', 'v', 'a', 'h', '-', 'f', 'a', 'r', 'm', 'aa', '))', 'ii'],
 ['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'aa', 'h'],
 ['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'a', 'r'],
 ['j', 'a', 'l', 'v', 'a', 'h', '-', 'g', 'a', 'r', 'ii'],
 ['j', 'a', 'l', 'v', 'a', 'h', '-', 'n', 'u', 'm', 'aa'],
 ['j', 'a', 'l', 'v', 'e'],
 ['j', 'a', 'm'],
 ['j', 'a', 'm', '((', 'a'],
 ['j', 'a', 'm', 'sh', 'e', 'd'],
 ['j', 'a', 'n', 'aa', 'b'],
 ['j', 'a', 'n', 'aa', 'z', 'a', 'h'],
 ['j', 'a', 'n', 'aa', 'z', 'e'],
 ['j', 'a', 'n', 'g', 'a', 'l'],
 ['j', 'a', 's', 't', 'a', 'h'],
 ['j', 'au', 'l', 'aa', ';n'],
 ['j', 'au', 'r'],
 ['j', 'a', 'v', 'aa', ';n'],
 ['j', 'a', 'v', 'aa', ';n', '-', 'm', 'a', 'r', 'g'],
 ['j', 'a', 'v', 'aa', 'b'],
 ['j', 'a', 'v', 'aa', 'n', 'ii'],
 ['j', 'a', 'v', 'v', 'aa', 'l', 'a', 'h'],
 ['j', 'a', 'z', 'aa'],
 ['jh', 'aa', ';r', 'ii'],
 ['jh', 'u', 'k', 'aa'],
 ['jh', 'u', 'k', 'n', 'e'],
 ...]

In [28]:
[''.join(x) for x in left_as_tokens if '-' in x and x[-1]=='e']


Out[28]:
[':zulmat-kade',
 ';gam-;xaane',
 'aa))iinah-;xaane',
 'aa))inah-;xaane',
 'but-;xaane',
 'but-kade',
 'ham-saaye',
 'kaash-ke',
 'kaun-se',
 'mai-;xaane',
 'sar-naame',
 'sharaab-;xaane']

In [49]:
mark_okay_lemmas(ends_with('-e'))

In [51]:
ends_with('ah')


Out[51]:
[';gam-kadah',
 ';hamzah',
 ';hasrat-zadah',
 ';hau.salah',
 ';hau.slah',
 ';hujrah',
 ';xaanaqaah',
 ';xamyaazah',
 ';xuftah',
 ';xum-kadah',
 ';xuu;n-gashtah',
 ';xuu;n-naabah',
 ';xvaastah',
 'aatish-diidah',
 'aatish-kadah',
 'aatish-zadah',
 'aavaarah',
 'al-l;aah',
 'asad-ul-l;aah',
 'az-dast-raftah',
 'bah',
 'bah-;zarrah',
 'barjaa-maa;ndah',
 'burdah',
 'chaah',
 'chahrah',
 'daad-;xvaah',
 'daadah',
 'daam-gaah',
 'daanah',
 'dafiinah',
 'dar-pardah',
 'darvaazah',
 'diivaanah',
 'dijlah',
 'guldastah',
 'gum-gashtah',
 'gunaah',
 'gunah',
 'hadyah',
 'hamah',
 'hameshah',
 'havaa-;xvaah',
 'ishaarah',
 'jalvah-gaah',
 'janaazah',
 'jastah',
 'javvaalah',
 'kah',
 'kardah',
 'karishmah',
 'kulah',
 'kushaadah',
 'kushuudah',
 'la;h:zah',
 'laalah',
 'mar;siyah',
 'mardaanah',
 'martabah',
 'muqaddamah',
 'murdah',
 'nabard-peshah',
 'naqshah',
 'niim-;gamzah',
 'paashnah',
 'pah',
 'paivastah',
 'parii-chahrah',
 'parvaanah',
 'piyaalah',
 'pur-((arbadah',
 'ra;xshindah',
 're;xtah',
 'rindaanah',
 'ruu-siyaah',
 'saadah',
 'safiinah',
 'saiyaarah',
 'sang-aamadah',
 'shaahinshaah',
 'shabaanah',
 'shafaq-aaluudah',
 'shah',
 'shiguftah',
 'shikastah',
 'sirishk-aaluudah',
 'sitam-zadah',
 'siyaah',
 'siyah',
 'sufrah',
 'sulaimaa;n-jaah',
 'taubah',
 'tu;hfah',
 'uftaadah',
 'yagaanah',
 'zavaal-aamaadah',
 'zindaa;n-;xaanah',
 'zindah',
 'ziyaadah',
 'ziyaarat-kadah']

In [52]:
update_files()


Currently there are  2942  out of  4101

In [ ]: